在试图了解决策树如何scikit表现为onehot编码数据我有以下几点:决策树直觉一个热编码数据
X = [[1,0,1] , [1,1,1]]
Y = [1,2]
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(X, Y)
print(clf.predict([1,0,1]))
print(clf.predict([1,1,1]))
print(clf.predict_proba([1,0,1]))
print(clf.predict_proba([1,1,1]))
将返回:
[1]
[2]
[[ 1. 0.]]
[[ 0. 1.]]
阅读文档的predict_proba http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.predict_proba应该返回以下状态:
p:形状数组= = [n_samples,n_classes ],或者n_outputs> n_outputs 这样的数组列表,如果n_outputs> 1.输入 样本的类概率。类的顺序对应于属性 classes_中的顺序。
应该返回给定输入值的正确性的概率? 返回值[[1. 0.]],[[0. 1.]]如何与输入采样的类概率相对应?