Scikit-Learn
(或一般算法)中是否有任何特征选择方法给出属性的权重/预测能力/重要性以预测特定目标?例如,from sklearn.datasets import load_iris
,排列4个属性权重的每一个,以分别预测3种虹膜种类,但对于更复杂的数据集w /〜1k-10k属性。在Sklearn中使用特征选择对Python中特定目标的属性预测能力
我在找的东西类似于feature_importances_
从RandomForestClassifier。但是,RandomForestClassifer
给整个预测过程的每个属性赋予权重。权重不需要加起来一个,但我想找到一种将特定子集的属性关联到特定目标的方法。
首先,我尝试“过度拟合”模型以丰富特定目标,但结果在目标之间似乎没有太大变化。其次,我尝试通过发现哪些属性具有最大的变化来进行排序,但这并不直接转化为预测能力。第三,我尝试了稀疏模型,但遇到了与使用feature_importances_
相同的问题。
指向示例或教程的链接就足够了。可能是关于如何遍历随机森林中的决策树并存储预测特定目标的节点的教程。
这个目标是否特定?还是一般应用预测过程? –
更新我的答案以更好地解决特定于目标的推理。 –
感谢您的答案更新。单个目标部分提供了一些关于它如何完成的信息,但基本上是说从头构建模型并对数据编目。敏感性分析和回顾模型部分似乎需要强烈的组合学来尝试所有的变化及其预测能力。一般特征的重要性是我试图避免的。虽然,f检验非常有趣,我不知道存在。谢谢你。上投了反对票。 –