2017-12-02 227 views
1

我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是该数据集的例子在Sklearn中为RandomForest分散连续变量

VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树木适用于离散数据(分类),但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理?对于分类字符串变量我用下面的与零和一

pandas.get_dummies(X['Var2']) 

编码字符串到数字列和它的作品,但对于数字我尝试以下,以离散

pandas.qcut(X['Var1'], 2 , retbins=True) 

,但我不断收到非唯一箱的错误!

我需要离散吗?我该怎么做?

+0

数据示例不清楚我该如何发表一个表? – Sara

回答

0

随机森林应该支持连续变量没问题。例如参见this sample

+0

这意味着决策树也支持连续变量吗? – Sara

+0

是的,没错。实际上最好不要对它们进行分类 - 然后,树可以最佳地选择“分割”分布的位置。例如。假设正确的决定是某个特征是少于还是超过15个。如果在此之前将其分离为分类[0,10],[10,20],[20,30]等,则将丢失该信息。 – Bennet

0

树木和森林工作更糟,当你从你的分类值做假人。

你只需要标记你的分类特征 - 就这些!