2017-09-09 80 views
0

我尝试使用Python中随机森林,乘坐火车和测试数据集建立的预测模型是初学者。 train [“ALLOW/BLOCK”]可以取4个期望值中的一个(所有字符串)。测试[“ALLOW/BLOCK”]是需要预测的。如何在Python中使用factorize()之后获取原始值?

y,_ = pd.factorize(train["ALLOW/BLOCK"]) 

y 
Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64) 

我用predict进行预测。

clf.predict(test[features]) 

clf.predict(test[features])[0:10] 
Out[294]: array([0, 0, 0, 0, 0, 2, 2, 0, 0, 0], dtype=int64) 

我怎样才能得到原始值,而不是数字的?以下代码是否实际比较了实际值和预测值?

z,_= pd.factorize(test["AUDIT/BLOCK"]) 

z==clf.predict(test[features]) 
Out[296]: array([ True, False, False, ..., False, False, False], dtype=bool) 

回答

0

首先,您需要保存由pd.factorize返回label如下:

y, label = pd.factorize(train["ALLOW/BLOCK"]) 

然后你得到了数字的预测之后,你可以通过label[pred]提取相应的标签:

pred = clf.predict(test[features]) 
pred_label = label[pred] 

pred_label包含原始值的预测。


不,您不应该将测试预测重新因式分解,因为很可能标签会有所不同。请看下面的例子:

pd.factorize(['a', 'b', 'c']) 
# (array([0, 1, 2]), array(['a', 'b', 'c'], dtype=object)) 

pd.factorize(['c', 'a', 'b']) 
# (array([0, 1, 2]), array(['c', 'a', 'b'], dtype=object)) 

所以标签取决于元素的顺序上。

+1

这工作,谢谢一吨!我不知道。 :) –

相关问题