2015-02-23 97 views
3

我试图启动spark-shell有:星火壳无法连接到YARN

spark-shell --master yarn-client 

然后我进入外壳。但几秒钟后,我在shell得到这个:

WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected]:38171] has failed, address is now gated for [5000] ms. Reason is: [Disassociated]. 

我得到这个错误在纱线日志文件中重复多次。

15/02/23 20点37分26秒INFO yarn.YarnAllocationHandler:完成容器 container_1424684000430_0001_02_000002(状态:COMPLETE,退出状态: 1)15/02/23 20点37分26秒INFO yarn.YarnAllocationHandler :标记为 的容器失败:container_1424684000430_0001_02_000002。退出状态:1. 诊断:容器启动异常。容器ID: container_1424684000430_0001_02_000002退出代码:1堆栈跟踪: ExitCodeException EXITCODE = 1: org.apache.hadoop.util.Shell.runCommand(Shell.java:538)在 org.apache.hadoop.util.Shell。运行(Shell.java:455) org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute(Shell.java:715) at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor的.java:211) 在 org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302) 在 org.apache.hadoop.yarn.server.nodemanager.containermanager .launcher.ContainerLaunch.call(ContainerLaunch。的java:82) 在java.util.concurrent.FutureTask.run(FutureTask.java:262)在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor中$ Worker.run(ThreadPoolExecutor.java:615) 在java.lang.Thread.run(Thread.java:745)

集装箱退出,非零退出代码1

我还注意到此行:

15/02/23 21:00:20 INFO yarn.ExecutorRunnable: Setting up executor with commands: List($JAVA_HOME/bin/java, -server, -XX:OnOutOfMemoryError='kill %p', -Xms1024m -Xmx1024m , -Djava.io.tmpdir=$PWD/tmp, '-Dspark.driver.port=33837', -Dspark.yarn.app.container.log.dir=<LOG_DIR>, org.apache.spark.executor.CoarseGrainedExecutorBackend, akka.tcp://[email protected]:33837/user/CoarseGrainedScheduler, 4, vbox-lubuntu, 1, application_1424684000430_0003, 1>, <LOG_DIR>/stdout, 2>, <LOG_DIR>/stderr) 

奇怪的部分是-Dspark.yarn.app.container.log.dir =。它看起来像变量没有扩大。但我想我已经定义了它。

P.S.火花提交似乎工作:

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /path/to/lib/spark-examples-1.2.1-hadoop2.4.0.jar 

回答

1

基于在this线程的讨论,问题是由容器OOM引起的。唯一的解决办法是提高系统内存...

错误信息是真的错过领先。

+0

你确定它是由内存不足造成的吗?我也有这个问题,至少6GB /每个节点未使用的内存。更新可用物理内存解决问题? – toobee 2015-04-08 14:36:35

+0

@toobee,你是否使用'--executor-memory'就像它提到的[这里](https://spark.apache.org/docs/1.2.1/running-on-yarn.html)? Spark不会检查您系统的可用内存。默认值非常小。 – davidshen84 2015-04-09 00:49:25

+0

好的。它似乎现在工作在集群模式 - 迄今为止感谢。纱线客户端仍然不起作用。我仍然收到此错误消息。你有什么想法在客户端模式下会导致这个问题吗?设置ram在这里似乎没有帮助。 – toobee 2015-04-09 07:44:10