2016-07-31 93 views
0

我正在使用spark.ml渐变提升。生成结果需要将近一天的时间。有没有办法显示进度? (例如,迄今为止生成了多少棵树)spark.ml.gradientboosting的进度报告?

+0

不幸的是,除了你可以在火花Web UI中检查的常规任务的进度外,一般不会有什么进展。 – eliasah

回答

0

在log4j.properties文件中将缺省日志级别设置为“DEBUG”,或通过修改shell spark.sparkContext.setLogLevel("DEBUG")中的Spark上下文来设置。这将在树形建造中提供带有状态更新的调试消息,例如,

[DEBUG] 2016-07-31 11:36:23,689 org.apache.spark.ml.tree.impl.GradientBoostedTrees logDebug - ################################################### 
[DEBUG] 2016-07-31 11:36:23,690 org.apache.spark.ml.tree.impl.GradientBoostedTrees logDebug - Gradient boosting tree iteration 2 
[DEBUG] 2016-07-31 11:36:23,690 org.apache.spark.ml.tree.impl.GradientBoostedTrees logDebug - ################################################### 

调试日志记录信息也会显示每次迭代时GBT的错误。

+0

谢谢Seth。我在Spark Standalone上使用Ipython(pyspark)。我在我的笔记本上完成了sc.setLogLevel(“DEBUG”),但我的日志中仍然没有看到任何DEBUG消息。 –