用J48和IBk（KNN）算法进行分类

我给出了许多不同类型蘑菇的记录。这些应该分为食用和有毒。分类必须用k最近邻（1）和J48来执行。用J48和IBk（KNN）算法进行分类

这两种算法都显示99.88％的精度。与我相关的是假阳性率。 J48的比率为0.3％，KNN为0％。所以我会说KNN更适合选择的问题。

但是，我不知道答案为什么。有没有一个普遍的答案，为什么KNN比J48有一些记录是无聊的？

第二件事是我应该使用10倍交叉验证。那是什么呢？

在此先感谢

是否有一个一般的答案，为什么KNN是一些记录比J48 bether？

不是。它强烈依赖于数据集，这两种算法的设置和评估方式（您确实使用单独的培训和测试集，是不是？）。

10倍交叉验证的意思是：你在10分割你的数据集大小相等的“褶皱”，然后为每个褶皱我在所有其他9倍

评估

并取平均准确度。请参阅Wikipedia或任何有关机器学习的书籍。

2012-01-13 14:48:26

不，我只用了一个数据集（* .arff-File与属性和类）。 – user1147739 2012-01-13 15:20:13

@ user1147739：那么你的结果是完全无效的。您应始终有单独的培训和测试集以供评估，或使用交叉验证。再次看到任何关于机器学习的书。 – 2012-01-13 15:22:11

但是我怎么说呢，我用了10倍交叉验证。那么我的结果不是ivalid？是的，我会阅读... ;-) – user1147739 2012-01-13 15:38:39

回答