2015-10-20 74 views
0

weka中有1棵树(ID3或J48)。它只有25个训练集。并学习100%的准确性。我认为这对训练集的准确性来说太高了。 我怎样才能了解天气有没有充足的问题? (我想使用这25个列车数据本身的测试集 - 因为我没有任何测试) 和我交叉验证对停止过度拟合很好,但我想在使用交叉验证之前证明它。 实际上,我修剪了这棵树并比较了修剪和未修剪树木之间的交叉验证准确性。但是我无法解释和理解在过度修剪树和修剪树之间准确度应该如何改变? (在这种情况下,我知道我的树有过度问题 - 但我怎么能推断?) 其他方式呢?你能建议我吗? 注意测试数据不可用。交叉验证如何为这两棵树工作?

回答

0

这是我会做:

  1. 取25个数据点,并使用10倍交叉验证。记录准确度(前提是您的班级平衡/接近平衡)
  2. 取出训练准确度并比较这两个准确度值。如果他们显着不同(比如100%的训练准确率和85%的测试准确度),那么这是一个过度适合我的信号。从那时起,我会尝试增加数据点并绘制学习曲线,并增加它们。

注意:如果您没有任何测试数据,则CV是唯一的选择,您从CV获得的结果应视为测试结果。

+0

你是对的..但是当我修剪树并使用10倍交叉验证的准确性就像未修剪的树?例如80%和80%。 所以这有点奇怪!这是为什么? – patric