在Sklearn中为RandomForest分散连续变量

我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字（连续）和分类（字符串）数据。这是该数据集的例子在Sklearn中为RandomForest分散连续变量

VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树木适用于离散数据（分类），但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理？对于分类字符串变量我用下面的与零和一

pandas.get_dummies(X['Var2'])

编码字符串到数字列和它的作品，但对于数字我尝试以下，以离散

pandas.qcut(X['Var1'], 2 , retbins=True)

，但我不断收到非唯一箱的错误！

我需要离散吗？我该怎么做？

2017-12-02 Sara

数据示例不清楚我该如何发表一个表？ – Sara

随机森林应该支持连续变量没问题。例如参见this sample。

2017-12-02 18:05:28 Bennet

这意味着决策树也支持连续变量吗？ – Sara

是的，没错。实际上最好不要对它们进行分类 - 然后，树可以最佳地选择“分割”分布的位置。例如。假设正确的决定是某个特征是少于还是超过15个。如果在此之前将其分离为分类[0,10]，[10,20]，[20,30]等，则将丢失该信息。 – Bennet

树木和森林工作更糟，当你从你的分类值做假人。

你只需要标记你的分类特征 - 就这些！

2017-12-08 10:40:09 avchauzov

回答