2017-08-07 592 views
0

有人可以向我解释什么是功能在Apache Spark中的梯度增强树和随机森林中的作用? Apache Spark官方网站上没有使用该功能的文档或示例,我很好奇我是否可以将其用于我的特定用途。这个函数是否在树的内部决策上设置了阈值?例如,对于数字列,使用setThresholds(5.0)相当于if(column < 5.0)?或者我错了?在决策树上设置阈值?

回答

2

您似乎没有检查documentation的正确部分。

thresholds值被定义为以下:

参数有关的阈值在多类分类来调整预测每个类的概率。数组的长度必须等于类的数量,其值> 0。预测具有最大值p/t的类,其中p是该类的原始概率,t是类的阈值。

而且您已经注意到其实阈值的复数而不只是一个阈值。

您可以使用setThresholds(foo)来设置阈值,其中foo是阈值的值。

+0

它没有显示在这里:http://spark.apache.org/docs/latest/api/java/org/apache/spark/ml/classification/GBTClassifier.html#getThresholds-- –

+0

它似乎是如果所有的支持只提供给Scala或Python而不是Java。大部分方法在Java API文档 –

+0

中根本没有解释。我之前没有注意到。我只是从不使用Java API tbh – eliasah