2017-10-18 50 views
0

我正在使用火花和纱线作为我的资源经理。我试着找到一种方法来收集运行后分配给作业的资源。资源管理器仅报告当前使用情况,因此在完成后将其清零。在使用资源的火花提交后,是否有办法收集统计信息?

如果在事实之后我不能得到它们,有什么方法让Spark工作在最后输出/存储时积累统计信息?

回答

1

尝试使用Spark History Server

查看事实

但仍可以通过星火历史服务器来构建应用程序的用户界面后,提供应用程序的事件日志存在。您可以通过执行启动历史服务器:

./sbin/start-history-server.sh 

这在默认情况下,在http://<server-url>:18080创建一个web界面,列出不完整的和已完成的应用程序和尝试。

当使用文件系统提供程序类(请参阅下面的spark.history.provider)时,必须在spark.history.fs.logDirectory配置选项中提供基本日志记录目录,并且应该包含每个代表的子目录应用程序的事件日志。

spark工作本身必须配置为记录事件,并将它们记录到同一个共享的可写目录。例如,如果服务器配置了hdfs://namenode/shared/spark-logs的日志目录,则客户端选项将为:

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs 
相关问题