0

我想开发一个非常简单的程序,用于使用各种算法对文档进行分类和分类。我的问题,因为我是一个初学者,是我无法找到好的文章或网站的简单教程如何开始使用它。我读了很少的资源,我学到了很多东西,但每个文档,网站等我读它使用不同的技术,它以不同的方式分析问题,提出不同的解决方案等,所以我感到困惑。是否有任何好的资源可以让我指出,以便开始实际实施?文本分类分类指针

此外,我正在寻找实际的测试数据和具体的文件分类,所以我可以“喂”我的算法。任何帮助赞赏。谢谢。

+0

如果你在Java中编程,那么这个[SO问题](http://stackoverflow.com/questions/2821575/java-text-classification-problem)可能对你很有帮助 – GETah

回答

1

对于Python,请查看scikit-learn tutorial on text classification。另请参阅其demo script,该文件在twenty newsgroups基准数据集上运行数十种不同的文本分类算法(包括朴素贝叶斯和SVM)。 [免责声明:我合着了这些东西。]

对于Weka,这里是tutorial

+0

谢谢我目前正在寻找数据集,这是非常有用的,但由于我在Java程序中的python示例似乎很混乱。对于我以前试过的WEKA,但它实际上并没有正确的文档。 WEKA的教程是一个但有限的不多说。你知道任何其他的Java方法或指针吗?感谢您的回应。 –