2016-04-27 207 views
3

使用着名的Iris数据集和Julia决策树分类器,我得到以下树。解释决策树中的数字

using RDatasets 
using DecisionTree 
iris = dataset("datasets", "iris") 
features = convert(Array, iris[:, 1:4]) 
labels = convert(Array, iris[:, 5]); 
model = build_tree(labels, features) 
model = prune_tree(model, 0.9) 

print_tree(model) 
Feature 3, Threshold 3.0 
L-> setosa : 50/50 
R-> Feature 4, Threshold 1.8 
    L-> Feature 3, Threshold 5.0 
     L-> versicolor : 47/48 
     R-> Feature 4, Threshold 1.6 
      L-> virginica : 3/3 
      R-> Feature 1, Threshold 7.2 
       L-> versicolor : 2/2 
       R-> virginica : 1/1 
    R-> Feature 3, Threshold 4.9 
     L-> Feature 1, Threshold 6.0 
      L-> versicolor : 1/1 
      R-> virginica : 2/2 
     R-> virginica : 43/43 

我不能真正解释一些分支后的数字,比如“setosa:50/50”或“virginica:3/3”。

有人能解释一下那些是什么意思吗?

回答

1

它看起来像,关于节点“setosa:50/50” 50花朵被正确地分类(50个花朵被变成这个节点和50是setosa) 云芝:47/48意味着它们中的一个是锦葵或setosa 。