决策树的文档分类
回答
一种方法是有一个巨大的矩阵,其中每一行是一个文档,每列是一个字。单元格中的值是单词在该文档中显示的次数。然后,如果你正在处理“监督式学习”的情况,你应该有另一个分类器的列,从那里你可以使用像“rpart”(来自rpart包)的命令来创建你的分类树。该命令将以与线性模型(lm)相似的方式输入一个rpart公式。
如果你愿意,你也可以尝试先将你的单词分组为“单词组”,然后让每一列属于不同的单词组,并用数字表示文档中有多少单词属于组。为此,我会看看“tm”包。 (如果你最终做用的东西,请考虑也许张贴约在这里,所以我们可以从中学习)
最佳, 塔尔
我对此表示怀疑 - 至少像通常定义的那样,决策树使用单一标准来指定子分支。在对文档进行分类时,很少有很多内容可以基于单一标准 - 您需要多个标准,即使这样,您也不会得到明确的树状决策,但“这比这更接近于另一件事“的结果。
我认为OP比分析树更多地提到分类树。这里的术语含糊不清。 – 2010-06-25 01:54:45
...正如本维基百科页面第二段所述:http://en.wikipedia.org/wiki/Decision_tree_learning – 2010-06-25 01:55:53
是的,我同意马特在我的部分有点模糊不清,我的意思是分类文件使用决策树。 – 2010-06-25 03:35:26
本文给出了不同的文本分类技术及其精度的调查。总之,你可以用决策树对文本进行分类,但还有其他算法更好。
Sebastiani,F.(2002)。在自动文本分类中进行机器学习。 ACM Computing Surveys,cs.IR/0110053v1。可用的:http://arxiv.org/abs/cs.IR/0110053v1。
- 1. 带分类变量的Spark决策树
- 2. 完美的决策树分类
- 3. SKLearn决策树分类深度/订购
- 4. 处理决策树的分类特征的策略?
- 5. 决策树问题解决
- 6. 执行决策树
- 7. 决策树修剪
- 8. 修剪决策树
- 9. 决策树组件
- 10. weka决策树java
- 11. 建模决策树
- 12. Classifcation /决策树和选择拆分
- 13. 当不以规则为基础的分类优于决策树?
- 14. 该任务的决策树相关分类?
- 15. 使用scikit的多输出分类决策树
- 16. 如何处理决策树中的多个分类特征?
- 17. 什么是决策树中的多元分类?
- 18. 复杂对象的Python决策树分类
- 19. 决策树在树决策中保持使用Y变量
- 20. 使用Apache Spark决策树分类器进行多类分类时出错
- 21. 使用决策树的熵
- 22. 如何使用Spark决策树调整分类阈值
- 23. 如何使用决策树对此值进行分类
- 24. 解析决策树(来自WEKA分类器)在R中绘图?
- 25. 尝试训练决策树分类器时出错
- 26. 修剪C++决策树
- 27. Weka软件决策树
- 28. 快速排序决策树
- 29. 与sklearn决策树图
- 30. 决策树网站示例
Hi Tal, 感谢指针,实际上我确实计算了一个文档文档矩阵和一个最常见的共现词的关联矩阵。必须仍然计算出树木,但我正朝着你指出的方向前进。此外,tm包中的功能也很有帮助。一旦我得到一些结果,我会在这里发布代码。 - Neo – 2010-06-25 14:19:22
我很高兴Neo :) – 2010-06-25 15:07:48
决策树有一个问题 - 它们很容易过度配合。我建议你尝试随机森林方法(在randomForest包中的AV),它没有这个缺点。 – mbq 2010-06-25 22:43:37