我有几百万个短文档(最多30个字),我需要将其分成几个已知类别。有可能,文档匹配几个类别(很少,但可能)。文档也可能不匹配任何类别(很少)。我还拥有数百万份已被分类的文件。我应该使用什么算法来完成这项工作。我不需要太快。我需要确保算法正确(尽可能)分类。
我应该使用什么算法?在C#中有一个实现吗?
谢谢你的帮助!文本分类算法
文本分类算法
回答
看看term frequency and inverse document frequency也cosine similarity找到创建类别和指定文件类型重要的话基于相似
编辑:
找到一个例子here
也许一个决策树结合NN?
你能告诉我NN是什么吗? – StuffHappens 2010-10-08 14:25:52
NN =“神经网络” – Mick 2010-10-08 14:52:21
恕我直言,这里的主要问题是文件的长度。我想我会称之为短语分类,并且由于推特的原因,这方面的工作正在进行。您可以带上额外的文字,对30个单词进行网络搜索,然后分析顶级匹配。有一篇关于此的文章,但我现在找不到它。然后,我会尝试使用特征向量方法(如Jimmy的答案中的tdf-idf)和用于分类的多类SVM。
您可以使用SVM算法将C#中的文本与libsvm.net库进行分类。
为什么迟到(而不是完整的答案)? – 2017-12-12 09:23:55
- 1. Java文本分割算法
- 2. 文本分组算法
- 3. 分类:VFI5算法
- 4. 将文本分组为段算法
- 5. 文本分类:可扩展文本分类与多类文本分类
- 6. 文本分类分类器
- 7. 算法计算betweem文本
- 8. 最新的分类算法
- 9. 最优分类算法
- 10. 数字根分类算法
- 11. 算法问题分类
- 12. 分类算法,使用R
- 13. C文本算法
- 14. Woocommerce分类文本
- 15. 短文本分类
- 16. 分类算法,分类可以作为百分比
- 17. nltk naivebayes分类器的文本分类
- 18. 文本分类分类指针
- 19. 文本差异算法
- 20. 文本比较算法
- 21. 文本索引算法
- 22. 这个变量应该用什么分类算法进行文档分类?
- 23. 基本概念:朴素贝叶斯算法的分类
- 24. 计算文本B中有多少文本A的算法?
- 25. 计算B和| V |在朴素贝叶斯文本分类
- 26. 如何用估算器对文本进行分类?
- 27. 分类器算法的参数优化
- 28. 比较分类算法复杂度
- 29. 在MATLAB中理解knn算法(分类)
- 30. 拓扑分类变种算法
http://www.tfidf.com/可能有用。 – Koray 2017-04-10 08:54:14