所以这个问题可能看起来有点愚蠢,但我无法把头围住它。 测试数据的目的是什么?只是计算分类器的准确性?我正在使用朴素贝叶斯对推文进行情感分析。一旦我使用训练数据训练分类器,我只使用测试数据来计算分类器的准确性。如何使用测试数据来提高分类器的性能?监督学习中的测试数据的目的?
回答
你不 - 喜欢你猜测,测试数据用于测试,不得用于其他任何东西,以免你倾斜你的测量精度。这是任何机器学习的重要基石 - 如果您使用测试数据进行培训,则只会欺骗自己。
如果你正在考虑这样的孤注一掷的措施,提出了正确的解决方法通常是重新审视你的问题的空间,你有解决方案。它是否充分模拟了您正在尝试解决的问题?如果不是,你能设计一个更好的模型来捕捉问题的本质吗?
机器学习是不是银弹。它不会为你解决你的问题。太多失败的实验一遍又一遍地证明,“垃圾进入垃圾”。
在这样做的一般监督的机器学习,测试数据集在决定模型的效果如何关键的作用。您通常会建立一个模型,其中包含您输入数据的90%,并留下10%用于测试。然后通过观察它对10%训练集的效果,来检查该模型的准确性。模型对测试数据的性能是有意义的,因为模型从未“看到”过这些数据。如果模型在统计上是有效的,那么它应该在训练和测试数据集上表现良好。这个通用程序被称为交叉验证,你可以阅读更多关于它here。
你将你的设置到动车组+ DEV-测试设置如[这](http://stackoverflow.com/questions/10059594/a-simple-explanation-of-naive-bayes-classification) – CSK 2015-03-02 06:29:33
我不没有任何与朴素贝叶斯合作的经验,但我曾广泛地使用决策树(以及一些SVM)。您所介绍的文章看起来就是您正在做的事情。 – 2015-03-02 06:44:14
- 1. 使用PCA时监督学习和无监督学习的区别
- 2. 如何提出有监督和无监督学习的问题?
- 3. 减少监督学习的尺寸
- 4. 有监督学习的情感分类
- 5. 测试无监督机器学习算法
- 6. 图像识别使用监督或无监督学习
- 7. 直接/间接和监督/无监督/强化学习
- 8. 监督学习随机森林通过
- 9. 准备包半监督学习
- 10. 决策树学习可以“半监督”
- 11. 为无监督学习生成合成数据
- 12. 如何为受监督的机器学习项目构建目标变量
- 13. 充分利用无监督学习的数据了解到表示在pylearn2
- 14. 标签文本文档 - 受监督的机器学习
- 15. 如果不涉及“学习”,算法可以分类为“无监督学习”吗?
- 16. 在有监督学习中提取分类功能
- 17. 特征选择和监督学习多语种数据+机器学习算法选择
- 18. 集体分类和半监督学习有什么区别
- 19. 机器学习:无监督反向传播
- 20. 如何训练FeedForward有监督学习NeuralNet?
- 21. 监督Git中的项目更改
- 22. 受监督或无监督
- 23. Akka监督管理监督
- 24. 神经网络或任何其他监督学习算法可以学习特殊的统计方法吗?
- 25. 有监督的运动检测库
- 26. 学习jQuery的数据表
- 27. 神经网络适用于数据(输入和输出)连续的监督式学习吗?
- 28. 如何在情感分析中使用无监督深度学习?
- 29. python中的机器学习外部数据集学习
- 30. 我是否真的必须学习在轨道上学习Ruby时的测试
所以,增加我的训练集是提高我的分类性能的唯一途径? – CSK 2015-03-02 05:48:25
更好的模式通常是获得实质性改进的唯一方法,这似乎就是您所问的。使用更好的功能,或者如果幸运的话,可以降低噪音功能;或者尝试一种完全不同的方法。 – tripleee 2015-03-02 05:50:37
我尝试从推文中剥离名词和符号,但结果并不理想。如果你不介意,你可以建议任何其他改进以获得更好的功能吗? – CSK 2015-03-02 06:46:53