在Hadoop上并行实现决策树ID3/C4.5

我想在Hadoop上实现决策树ID3/C4.5。任何人都可以通过想法如何继续前进。在Hadoop上并行实现决策树ID3/C4.5

我很清楚算法，但我需要知道如何并行化它们。

2012-10-15 wmahendra

我会考虑将属性选择的迭代作为一个MapReduce作业的方法。遵循这个想法，您可以为每个映射器分配属性以检查信息增益，并且在缩小阶段（使用单个缩减器）可以选择最佳属性。
如果计算一台机器上的单次迭代（在所有属性上）的计算时间稍长一些，那么工作开始时间开始时间大约为20-40秒，我认为这种方法很实用。

来源

2012-10-15 16:14:05

在Hadoop上并行实现决策树ID3/C4.5

回答

相关问题