yarn

    1热度

    1回答

    我可能搜索时使用了错误的术语,但Google并未告诉我如何执行此操作。问题是如何在更改一些配置文件(纱线属性等)后在Dataproc上重新启动hadoop服务? 服务必须在整个集群中按特定顺序重新启动。希望在Dataproc安装中有足够的脚本或工具,我可以调用它来重新启动集群。

    0热度

    1回答

    我想用卡夫卡钩住Spark。以前,Spark工作正常,但没有这个功能。我安装了spark-streaming-kafka-spark-streaming-kafka-0-8-assembly罐子到我的罐子星火文件夹,现在当我尝试提交一个任务,我得到 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 INFO i

    0热度

    1回答

    我们遇到了Solr批量索引的一些性能问题:我们有一个由4名工作人员组成的集群,每个工作人员都配有32个内核和256GB的RAM。 YARN被配置为使用100个vCore和785.05GB内存。 HDFS存储由通过10Gb接口连接的EMC Isilon系统管理。我们的集群运行CDH 5.8.0,具有Solr 4.10.3的功能,并且它已被Kerberized化。 利用目前的设置,说到压缩数据,我们可

    0热度

    2回答

    Spark如何限制cpu核心和内存的使用?它使用cgroups吗?纱线怎么样?

    1热度

    1回答

    我有部署在YARN(Hadoop 2.6.0/CDH 5.5)上的Spark版本(1.6,2.0,2.1)。我试图保证某个应用程序永远不会在我们的YARN集群上缺乏资源,无论这些应用程序在那里运行什么。 我已启用shuffle服务并设置了一些Fair Scheduler Pools,如Spark文档中所述。我创建了高优先级应用我想永远不会被饿死的资源的一个单独的游泳池,并赋予它资源的minShar

    2热度

    2回答

    我已下载:spark-2.1.0-bin-hadoop2.7.tgz从http://spark.apache.org/downloads.html。我有Hadoop HDFS和YARN以$ start-dfs.sh和$ start-yarn.sh开头。但运行$ spark-shell --master yarn --deploy-mode client给我下面的错误: $ spark-shell

    0热度

    1回答

    我是Spark的新手,刚刚在群集上运行(运行社区版MapR的9节点群集上的Spark 2.0.1)。我通过 ./bin/spark-submit --master yarn --jars ~/hadoopPERMA/jars/hadoop-lzo-0.4.21-SNAPSHOT.jar examples/src/main/python/wordcount.py ./README.md 提交单词

    0热度

    1回答

    我想了解什么是提交MR(对于基于Spark的Java)作业到YARN集群的正确方法。 考虑以下情况: 使用客户机开发的代码(MR或火花)的工作,并说该代码使用第三方JAR的。现在,当开发人员必须将作业提交给YARN群集时,将作业提交到群集的正确方法是什么,以便没有找到类的运行时异常。由于工作是以jar文件形式提交的,开发人员如何“放置”第三方罐子? 我很难理解这个,谁能帮我理解这一点?

    1热度

    1回答

    在向YARN提交Spark应用程序时获取有关容器的以下错误。 HADOOP(2.7.3)/ SPARK(2.1)环境在单个节点群集中运行伪分布式模式。当使用本地模式运行时,该应用程序完美工作,但尝试使用YARN作为RM在集群模式下检查其正确性并碰到某些障碍。这个世界是新的,因此寻求帮助。 ---应用程序日志 2017-04-11 07:13:28 INFO Client:58 - Submitti

    1热度

    1回答

    我通过spark启动器提交spark应用程序。我不会等到应用程序完成后,而是需要让方式杀死应用程序。 SparkAppHandle spark = new SparkLauncher() .setAppResource("/usr/local/myapp.jar") .setMainClass("com.myapp.app") .setMaster("ya