2013-04-10 56 views
0

对于我目前的项目,我必须建立一个主题建模或分类实用程序,它将处理数以千计的文章,将它们分类为各种主题(主题可能是40-50从开始)。对于例如它会浏览数据库技术文章,并将它们分类为文章是否为NOSQL文章/关系数据库文章/图数据库文章(仅举例)。建筑文章分类器 - NLTK/Scikit学习/其他NLP实现

我有非常基本的NLP背景,我们的团队主要有python后端脚本经验。我开始研究可用于实现它的各种选项,并且遇到了基于Python的NLTK和Scikit-Learn,以及基于JVM的Weka和Mallet。
我的理解是,NLTK更适合学习和理解各种NLP技术,如主题分类。

有人可以建议什么可能是我们可以用于我们的实施最好的开源解决方案吗? 如果我错过了任何有助于解答问题的信息,请让我知道。

+2

您是否拥有现有的培训文章集?如果是这样,它有多大?另外,您的示例主题非常接近,因此要比正在捕鱼,天文学和16世纪画家的算法正确分类要困难得多。这些细节很大程度上决定了哪种算法适合您的情况。 – 2013-04-10 08:05:01

+0

对“最佳”工具包的建议是无关紧要的。请参阅[常见问题](http://stackoverflow.com/faq)。如果你正在寻找性能,我会避免NLTK,它主要是一个教育工具包,虽然它可以用于原型。 – 2013-04-10 14:04:53

+0

是的,我们有一些培训文章可用于某些主题(20-50篇文章)。我们可以从更多不同的主题开始,然后转向更精炼的主题。 – whosthr 2013-04-11 19:03:28

回答

0

构建主题分类模型可以通过两种方式完成。 如果您有一套训练集,您可以使用scikit来构建分类器,但您可以使用scikit来构建分类器。

但是,如果您没有任何训练数据,则可以构建称为主题模型的内容。它基本上把你的话题作为一组单词。

您可以使用Gensim软件包来执行此操作。非常清晰,快速且易于实施(Look Here