2015-02-11 78 views
0

我试着在使用EMR的Spark群集上运行一个作业。该集群有一个主站和两个从站,每个节点(主站或从站节点)有32个内核。该作业通过控制台使用“添加步骤”,配置设置如下:如何使用EMR使从属节点适用于Spark群集?

sparkConf.setMaster(“local [24]”).set(“spark.executor.memory”,“40g”) 。 set(“spark.driver.memory”,“40g”);

然后我注意到两个从站不工作(CPU使用率接近0),只有主人正在努力工作。我如何解决这个问题,并使奴隶工作?

谢谢!

回答

1

当您指定一个“本地”主设备,即主设备是本地设备时,它不会分布在节点上。

您应该遵循DOC: http://spark.apache.org/docs/1.2.0/spark-standalone.html

+0

嗨,我需要设置sparkConf.setMaster(“yarn-cluster”)吗?或者不要设置任何东西,并且./bin/spark-submit - 主纱线集群会照顾它?谢谢! – Edamame 2015-02-12 17:33:19

+0

请勿使用sparkConf.setMaster。使用 - 主管纱群参数 – pzecevic 2015-02-13 09:46:41

1

我是最近才开始使用电子病历星火工作,但我发现these examples用于启动/配置群集并提交星火工作非常有帮助。

+0

嗨,你需要做的EMR集群上的任何配置,如http://spark.apache.org/docs/1.2.0/spark-standalone.html?谢谢! – Edamame 2015-02-12 17:29:19

+1

Spark的EMR引导(https://github.com/awslabs/emr-bootstrap-actions/blob/master/spark/README.md)设置了在YARN上运行Spark所需的一切。不要在EMR中使用独立模式。只需根据您的需要将--master设置为纱线客户端或纱线集群。 – ChristopherB 2015-02-14 04:50:07

相关问题