我有一个数据帧X
它有两个分类功能和41个数字功能。所以X
共有43个功能。熊猫:如何一个热门编码分类功能
现在,我想将分类特征转换为数字水平,以便它们可以在RandomForest
分类器中使用。
我做了以下内容,其中0
和1
注明的类别特征位置:
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
然后,我串连这两个数据帧:
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
现在,Xnew
有63个特征( F1
有18和F2
有4个功能,其余41从X
)
这是正确的吗?有没有更好的方法来做同样的事情?我是否需要删除F1
和F2
中的第一列以避免共线?
我看到问题,请在http://stats.stackexchange.com/上提问, – Merlin
谢谢。这里发布http://stats.stackexchange.com/questions/232541/pandas-how-to-one-hot-encode-categorical-features –