2012-03-06 69 views
1

我使用Weka的GUI对文本文档进行分类。我的数据集是.arff格式。Weka的GUI下NaiveBayes的奇怪结果

我应用了StringToWordVector过滤器。然后,我应用RemovePercentage过滤器将我的数据集分为火车和测试集。它总共包含99个实例和934个属性。在火车测试分裂之后,火车集合包含66个实例并且测试集合包含33个实例。

我在列车集中学习模型:结果是100%作为精度 然后,我测试在测试集上学习的模型:结果是3.0303%。

任何人都可以帮助我理解为什么我得到3.0303%以及如何改善这个结果?

回答

2

朴素贝叶斯模型学到的是overfitted。您可以尝试不同的火车/测试分组(或cross validation)以防止发生此情况。您还可以尝试调整朴素贝叶斯算法的参数或使用其他参数。

+0

你能告诉我怎么用Weka的GUI做到这一点吗? – Marie 2012-03-07 05:52:01

+0

我想通过使用Weka的GUI来遵循本视频中提供的解决方案:[链接](https://www.ai-class.com/course/video/videolecture/54)。任何人都可以帮我吗? – Marie 2012-03-07 05:57:53

+0

测试/训练分割或交叉验证的选择位于预测窗口左上角的上半部分,您可以通过单击它来调整算法的参数。 – 2012-03-07 08:49:04