2010-06-24 51 views

回答

2

一种方法是有一个巨大的矩阵,其中每一行是一个文档,每列是一个字。单元格中的值是单词在该文档中显示的次数。然后,如果你正在处理“监督式学习”的情况,你应该有另一个分类器的列,从那里你可以使用像“rpart”(来自rpart包)的命令来创建你的分类树。该命令将以与线性模型(lm)相似的方式输入一个rpart公式。

如果你愿意,你也可以尝试先将你的单词分组为“单词组”,然后让每一列属于不同的单词组,并用数字表示文档中有多少单词属于组。为此,我会看看“tm”包。 (如果你最终做用的东西,请考虑也许张贴约在这里,所以我们可以从中学习)

最佳, 塔尔

+0

Hi Tal, 感谢指针,实际上我确实计算了一个文档文档矩阵和一个最常见的共现词的关联矩阵。必须仍然计算出树木,但我正朝着你指出的方向前进。此外,tm包中的功能也很有帮助。一旦我得到一些结果,我会在这里发布代码。 - Neo – 2010-06-25 14:19:22

+0

我很高兴Neo :) – 2010-06-25 15:07:48

+1

决策树有一个问题 - 它们很容易过度配合。我建议你尝试随机森林方法(在randomForest包中的AV),它没有这个缺点。 – mbq 2010-06-25 22:43:37

0

我对此表示怀疑 - 至少像通常定义的那样,决策树使用单一标准来指定子分支。在对文档进行分类时,很少有很多内容可以基于单一标准 - 您需要多个标准,即使这样,您也不会得到明确的树状决策,但“这比这更接近于另一件事“的结果。

+0

我认为OP比分析树更多地提到分类树。这里的术语含糊不清。 – 2010-06-25 01:54:45

+0

...正如本维基百科页面第二段所述:http://en.wikipedia.org/wiki/Decision_tree_learning – 2010-06-25 01:55:53

+0

是的,我同意马特在我的部分有点模糊不清,我的意思是分类文件使用决策树。 – 2010-06-25 03:35:26

2

本文给出了不同的文本分类技术及其精度的调查。总之,你可以用决策树对文本进行分类,但还有其他算法更好。

Sebastiani,F.(2002)。在自动文本分类中进行机器学习。 ACM Computing Surveys,cs.IR/0110053v1。可用的:http://arxiv.org/abs/cs.IR/0110053v1