Java中的回归机器学习特征排名/评分

Java中是否有任何可用于回归数据集的特征评分方法，其中类值是连续数字而不是二进制数？Java中的回归机器学习特征排名/评分

ML-Lib feature scoring似乎只适用于分类数据集。

2015-12-22 Sumit

这很大程度上取决于您的回归算法。对于基于内核的回归算法来说，好的特性对于线性分类器可能相当不利。（https://en.wikipedia.org/wiki/Feature_selection）您似乎瞄准了“过滤方法”。在许多回归设置中很好用的是Pearson Correlation。这在ML-Lib中也是可用的。

但是，你应该考虑到不加K个顶部相关功能，但

避免选择对高相关的功能。所以你必须建立所有特征对之间的相关矩阵。
选择顶级特征，构建回归模型，测量模型的误差，测量误差与其余特征之间的相关性。这将贪婪地选择最佳功能
一旦你选择了你的功能，你应该考虑做一个灵敏度分析。这就是为所有功能建立一个回归模型，并为所有功能已被删除的功能集建立回归模型。如果删除没有显着影响，您可以删除它。

来源

2015-12-22 15:53:59 CAFEBABE

感谢您的详细回复。我目前的目标仅限于查找功能的排名。我正在使用线性SVR进行回归。我需要知道是否有一些基于Java的实现可以轻松实现基于过滤器的方法。 – Sumit

是的Weka。 Weka为机器学习提供variouse算法。 http://weka.sourceforge.net/doc.dev/weka/attributeSelection/CorrelationAttributeEval.html （我把ML-Lib和http://spark.apache.org/mllib/混淆了） – CAFEBABE

Java中的回归机器学习特征排名/评分

回答

相关问题