星火壳无法连接到YARN

我试图启动spark-shell有：星火壳无法连接到YARN

spark-shell --master yarn-client

然后我进入外壳。但几秒钟后，我在shell得到这个：

WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected]:38171] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].

我得到这个错误在纱线日志文件中重复多次。

15/02/23 20点37分26秒INFO yarn.YarnAllocationHandler：完成容器 container_1424684000430_0001_02_000002（状态：COMPLETE，退出状态： 1）15/02/23 20点37分26秒INFO yarn.YarnAllocationHandler ：标记为的容器失败：container_1424684000430_0001_02_000002。退出状态：1. 诊断：容器启动异常。容器ID： container_1424684000430_0001_02_000002退出代码：1堆栈跟踪： ExitCodeException EXITCODE = 1： org.apache.hadoop.util.Shell.runCommand（Shell.java:538）在 org.apache.hadoop.util.Shell。运行（Shell.java:455） org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute（Shell.java:715） at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer（DefaultContainerExecutor的.java：211）在 org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call（ContainerLaunch.java:302）在 org.apache.hadoop.yarn.server.nodemanager.containermanager .launcher.ContainerLaunch.call（ContainerLaunch。的java：82）在java.util.concurrent.FutureTask.run（FutureTask.java:262）在 java.util.concurrent.ThreadPoolExecutor.runWorker（ThreadPoolExecutor.java:1145）在 java.util.concurrent.ThreadPoolExecutor中$ Worker.run（ThreadPoolExecutor.java:615）在java.lang.Thread.run（Thread.java:745）

集装箱退出，非零退出代码1

我还注意到此行：

15/02/23 21:00:20 INFO yarn.ExecutorRunnable: Setting up executor with commands: List($JAVA_HOME/bin/java, -server, -XX:OnOutOfMemoryError='kill %p', -Xms1024m -Xmx1024m , -Djava.io.tmpdir=$PWD/tmp, '-Dspark.driver.port=33837', -Dspark.yarn.app.container.log.dir=<LOG_DIR>, org.apache.spark.executor.CoarseGrainedExecutorBackend, akka.tcp://[email protected]:33837/user/CoarseGrainedScheduler, 4, vbox-lubuntu, 1, application_1424684000430_0003, 1>, <LOG_DIR>/stdout, 2>, <LOG_DIR>/stderr)

奇怪的部分是-Dspark.yarn.app.container.log.dir =。它看起来像变量没有扩大。但我想我已经定义了它。

P.S.火花提交似乎工作：

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /path/to/lib/spark-examples-1.2.1-hadoop2.4.0.jar

来源

2015-02-23 davidshen84

基于在this线程的讨论，问题是由容器OOM引起的。唯一的解决办法是提高系统内存...

错误信息是真的错过领先。

来源

2015-02-25 11:37:34 davidshen84

你确定它是由内存不足造成的吗？我也有这个问题，至少6GB /每个节点未使用的内存。更新可用物理内存解决问题？ – toobee 2015-04-08 14:36:35

@toobee，你是否使用'--executor-memory'就像它提到的[这里]（https://spark.apache.org/docs/1.2.1/running-on-yarn.html）？ Spark不会检查您系统的可用内存。默认值非常小。 – davidshen84 2015-04-09 00:49:25

好的。它似乎现在工作在集群模式 - 迄今为止感谢。纱线客户端仍然不起作用。我仍然收到此错误消息。你有什么想法在客户端模式下会导致这个问题吗？设置ram在这里似乎没有帮助。 – toobee 2015-04-09 07:44:10

星火壳无法连接到YARN

回答

相关问题