我有一个具有唯一标识符和其他功能的数据集。它看起来像这样将预测映射回ID - Python Scikit学习DecisionTreeClassifier
ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
我把它分解成训练和测试数据。我试图从训练数据训练的分类器中将测试数据分为两类。我想在训练和测试数据集中使用标识符,所以我可以将预测映射回ID。
有没有一种方法可以将标识符列分配为ID或非预测变量,就像我们可以在Azure ML Studio或SAS中一样?
我使用的是Scikit-Learn的DecisionTreeClassifier
。这是我对分类器的代码。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
如果我只包括ID为traindata
,代码抛出一个错误:
ValueError: invalid literal for float(): 123-456
你是如何让你的火车/测试分裂? – Grr
@Grr ..现在,我把它分成两半,分别加载CSV作为traindata和testdata。 – Minu