2012-01-13 440 views
1

我给出了许多不同类型蘑菇的记录。这些应该分为食用和有毒。分类必须用k最近邻(1)和J48来执行。用J48和IBk(KNN)算法进行分类

这两种算法都显示99.88%的精度。与我相关的是假阳性率。 J48的比率为0.3%,KNN为0%。所以我会说KNN更适合选择的问题。

但是,我不知道答案为什么。有没有一个普遍的答案,为什么KNN比J48有一些记录是无聊的?

第二件事是我应该使用10倍交叉验证。那是什么呢?

在此先感谢

回答

1

是否有一个一般的答案,为什么KNN是一些记录比J48 bether?

不是。它强烈依赖于数据集,这两种算法的设置和评估方式(您确实使用单独的培训和测试集,是不是?)。

10倍交叉验证的意思是:你在10分割你的数据集大小相等的“褶皱”,然后为每个褶皱我在所有其他9倍

  • 评估

    • 列车on fold i

    并取平均准确度。请参阅Wikipedia或任何有关机器学习的书籍。

  • +0

    不,我只用了一个数据集(* .arff-File与属性和类)。 – user1147739 2012-01-13 15:20:13

    +0

    @ user1147739:那么你的结果是完全无效的。您应始终有单独的培训和测试集以供评估,或使用交叉验证。再次看到任何关于机器学习的书。 – 2012-01-13 15:22:11

    +0

    但是我怎么说呢,我用了10倍交叉验证。那么我的结果不是ivalid? 是的,我会阅读... ;-) – user1147739 2012-01-13 15:38:39