4


我有几百万个短文档(最多30个字),我需要将其分成几个已知类别。有可能,文档匹配几个类别(很少,但可能)。文档也可能不匹配任何类别(很少)。我还拥有数百万份已被分类的文件。我应该使用什么算法来完成这项工作。我不需要太快。我需要确保算法正确(尽可能)分类。
我应该使用什么算法?在C#中有一个实现吗?
谢谢你的帮助!文本分类算法

回答

0

也许一个决策树结合NN?

+0

你能告诉我NN是什么吗? – StuffHappens 2010-10-08 14:25:52

+0

NN =“神经网络” – Mick 2010-10-08 14:52:21

1

恕我直言,这里的主要问题是文件的长度。我想我会称之为短语分类,并且由于推特的原因,这方面的工作正在进行。您可以带上额外的文字,对30个单词进行网络搜索,然后分析顶级匹配。有一篇关于此的文章,但我现在找不到它。然后,我会尝试使用特征向量方法(如Jimmy的答案中的tdf-idf)和用于分类的多类SVM。

0

您可以使用SVM算法将C#中的文本与libsvm.net库进行分类。

+0

为什么迟到(而不是完整的答案)? – 2017-12-12 09:23:55