2015-12-22 84 views

回答

1

这很大程度上取决于您的回归算法。对于基于内核的回归算法来说,好的特性对于线性分类器可能相当不利。 (https://en.wikipedia.org/wiki/Feature_selection) 您似乎瞄准了“过滤方法”。在许多回归设置中很好用的是Pearson Correlation。这在ML-Lib中也是可用的。

但是,你应该考虑到不加K个顶部相关功能,但

  1. 避免选择对高相关的功能。所以你必须建立所有特征对之间的相关矩阵。
  2. 选择顶级特征,构建回归模型,测量模型的误差,测量误差与其余特征之间的相关性。这将贪婪地选择最佳功能
  3. 一旦你选择了你的功能,你应该考虑做一个灵敏度分析。这就是为所有功能建立一个回归模型,并为所有功能已被删除的功能集建立回归模型。如果删除没有显着影响,您可以删除它。
+1

感谢您的详细回复。我目前的目标仅限于查找功能的排名。我正在使用线性SVR进行回归。我需要知道是否有一些基于Java的实现可以轻松实现基于过滤器的方法。 – Sumit

+0

是的Weka。 Weka为机器学习提供variouse算法。 http://weka.sourceforge.net/doc.dev/weka/attributeSelection/CorrelationAttributeEval.html (我把ML-Lib和http://spark.apache.org/mllib/混淆了) – CAFEBABE