2016-12-03 43 views
0

我有一个通过qubole运行的pyspark作业,失败时显示以下错误。在qubole上的pyspark作业失败,并显示“重试异常读取映射器输出”

Qubole > Shell Command failed, exit code unknown 
Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading mapper output: (22, 'The requested URL returned error: 404 Not Found') 

Qubole > 2016-12-03 17:36:53,358 ERROR shellcli.py:262 - run - Retrying exception reading mapper logs: (22, 'The requested URL returned error: 404 Not Found') 

作业运行具有以下配置:

--num-executors 38 --executor-cores 2 --executor-memory 12288M --driver-memory 4000M --conf spark.storage.memoryFraction=0.3 --conf spark.yarn.executor.memoryOverhead=1024 

集群包含30个奴隶计数。 m2.2xlarge,4核心主从节点。

任何有关问题根源的见解都会有用。

+0

无论你读什么似乎都不可用。 – ksindi

回答

0

在很多情况下 - 上述错误实际上并不是失败的主要原因。在qubole中,spark工作是通过shellCli(1个mapper命令提交的,该命令使用一个从节点上的spark-submit调用主pyspark作业),并且由于相同的shellCli进程在yarn-client模式下调用驱动程序 - 这个过程由于任何原因(例如驱动程序的内存问题)而变坏,那么你可能会遇到这个问题。 其他不太可能的原因可能是 - 网络连接,其中qubole层无法连接到正在运行此1个映射程序调用程序作业的进程/从属节点。

相关问题