2017-03-07 112 views
0

我试图调整慢速运行的DSX作业的性能。火花历史记录服务器未显示“完整”应用程序

我已从Bluemix上的基础Spark业务导航到Spark历史记录服务器(按照此question)。

我已经执行包含一些基本的火花代码单元:

In [1]: 
x = sc.parallelize(range(1, 1000000)) 
x.collect() 

Out[1]: 
[1, 
2, 
3, 
4, 
5, 
... 

以后,我在浏览器中刷新作业历史记录服务器页面,但是,火花历史服务器没有显示任何完整的应用程序:

enter image description here

如何找到'完整'的应用程序?


更新

火花服务,我指的是Bluemix IBM的管理服务的火花,所以我没有对配置进行任何控制。

更新2

看起来好像日期越来越损坏,这就是为什么我没有看到已完成的作业:

enter image description here

回答

0

我已经接受了火花服务工程团队 - 这是一个已知的问题。

0

你配置火花集群有事件登录?像这样:

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs 
1

笔记本上下文启动一个Spark应用程序,它将在作业完成后继续运行20分钟。当您在此期间提交其他作业时,它将使用同一个应用程序并出现在相同的历史记录条目中。因此,您无法跟踪历史记录服务器中笔记本或Interactive API内核的作业/活动完成情况。

Spark活动在内核日志中生成输出,也许可以提供您正在查找的信息。

+0

Thanks @Roland。我真的需要历史服务器,以便我可以调试不高效的作业。我刚刚检查(4小时后),历史记录服务器仍然没有显示任何完整的应用程序。是否可以强制冲洗日志,所以我不必等待20分钟才能开始评估我的工作? –

+0

对不起,我不熟悉Spark基础结构的这一部分。这是SparkEGO资源管理。当您重新启动内核时,您可能根本没有在历史记录服务器中获得完成条目。 –

+0

Np - upvoting,因为答案对其他用户很有用。但是,它看起来好像我的工作历史日志已损坏。我已经更新了这个问题来反映这一点。 –

相关问题