0
我有我的数据集,这是我的规则,我想要生成一个决策树,在分类我的规则时至少有100%的准确性,但我永远无法获得100%。我将minNumObjs设置为1,并使其未修剪,但我只获得84%正确分类的实例。生成一个完美模拟训练集的决策树?
我的属性是:
@attribute users numeric
@attribute bandwidth numeric
@attribute latency numeric
@attribute mode {C,H,DCF,MP,DC,IND}
前数据:
2,200000,0,C
2,200000,1000,C
2,200000,2000,MP
2,200000,5000,C
2,400000,0,C
2,400000,1000,DCF
有人可以帮助我了解为什么我永远不会归我的情况下的100%,我怎么可以让他们100%分类(虽然仍然允许我的属性是数字)
谢谢
所有功能都是独一无二的。其中出现错误的是轮廓线,例如 ,我们可能会以100,100到1000的速率增加带宽,并且它们都是模式C,而在600处它是模式DC。那些是它错了。这是角落案件。 – jmasterx
我尝试了最好的第一棵树,它设法分类了96%,但树很丑。 – jmasterx
您也可以应用功能缩放,以便数字要素具有相同的比例(例如,在0.0和1.0之间)。两种方法是“z分数缩放”(又名标准化)和“最大 - 最小缩放”。维基百科有一个非常明确的解释:https://en.wikipedia.org/wiki/Feature_scaling。事实上,Weka具有内置的此功能:http://stackoverflow.com/questions/20904071/how-to-use-different-scaling-approaches-in-weka – stackoverflowuser2010