如何在Python中使用factorize（）之后获取原始值？

我尝试使用Python中随机森林，乘坐火车和测试数据集建立的预测模型是初学者。 train [“ALLOW/BLOCK”]可以取4个期望值中的一个（所有字符串）。测试[“ALLOW/BLOCK”]是需要预测的。如何在Python中使用factorize（）之后获取原始值？

y,_ = pd.factorize(train["ALLOW/BLOCK"]) 

y 
Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64)

我用predict进行预测。

clf.predict(test[features]) 

clf.predict(test[features])[0:10] 
Out[294]: array([0, 0, 0, 0, 0, 2, 2, 0, 0, 0], dtype=int64)

我怎样才能得到原始值，而不是数字的？以下代码是否实际比较了实际值和预测值？

z,_= pd.factorize(test["AUDIT/BLOCK"]) 

z==clf.predict(test[features]) 
Out[296]: array([ True, False, False, ..., False, False, False], dtype=bool)

来源

2017-09-09 Parvathy Sarat

首先，您需要保存由pd.factorize返回label如下：

y, label = pd.factorize(train["ALLOW/BLOCK"])

然后你得到了数字的预测之后，你可以通过label[pred]提取相应的标签：

pred = clf.predict(test[features]) 
pred_label = label[pred]

pred_label包含原始值的预测。

不，您不应该将测试预测重新因式分解，因为很可能标签会有所不同。请看下面的例子：

pd.factorize(['a', 'b', 'c']) 
# (array([0, 1, 2]), array(['a', 'b', 'c'], dtype=object)) 

pd.factorize(['c', 'a', 'b']) 
# (array([0, 1, 2]), array(['c', 'a', 'b'], dtype=object))

所以标签取决于元素的顺序上。

来源

2017-09-09 19:17:09 Psidom

这工作，谢谢一吨！我不知道。 :) –

如何在Python中使用factorize（）之后获取原始值？

回答

相关问题