2016-11-29 346 views
4

我正在使用LBFGS逻辑回归将示例分为两类之一。当我正在训练模型时,我收到很多此类警告 -火花任务大小太大

WARN scheduler.TaskSetManager: Stage 132 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB. 
WARN scheduler.TaskSetManager: Stage 134 contains a task of very large size (102 KB). The maximum recommended task size is 100 KB. 
WARN scheduler.TaskSetManager: Stage 136 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB. 

我有大约94个特征和大约7500个训练示例。为了将任务规模分成更小的块,我是否应该通过其他一些论证?

另外,这只是一个警告,在最坏的情况下可以忽略?还是妨碍了培训?

我打电话我的教练这样 -

val lr_lbfgs = new LogisticRegressionWithLBFGS().setNumClasses(2) 
lr_lbfgs.optimizer.setRegParam(reg).setNumIterations(numIterations) 
val model = lr_lbfgs.run(trainingData) 

而且,我的司机和执行内存20G我设定参数​​

回答

2

每个变量的星火sends a copy和方法需要对执行者可见;这个警告意味着这些对象总共超过100 KB。如果它不会显着影响性能,则可以放心地忽略此警告,或者可以考虑将某些变量标记为broadcast variables

+0

非常感谢您的回答。因为,训练和评估的时间并不长,并且不会很快,所以我会忽略警告。 – shashydhar

+0

没问题,欢呼! – user4601931