2011-09-23 63 views
2

我需要训练一个朴素贝叶斯分类器两个corpuses组成约。每个15,000个令牌。我正在使用一个基本的单词袋特征提取与二元标签,我想知道如果NLTK是足够强大的处理所有这些数据,而不会显着减慢运行时间,如果这样的应用程序获得许多用户。该计划基本上将分类来自潜在数千用户的常规文本消息流。如果不适合,是否还有其他机器学习软件包可以推荐与NLTK集成?NLTK的朴素贝叶斯分类器是否适用于商业应用?

+2

没有与NLTK学习者的经验,但我总是可以推荐[scikit-learn](http://scikit-learn.sf.net);我在那个库中实现了朴素的贝叶斯类,并优化了tf-idf矢量化器。朴素贝叶斯训练在这样一个(小!)语料库上不应该花费几秒钟的时间,并且应用分类器是很便宜的。 –

回答

3

您的语料库不是很大,所以NLTK应该完成这项工作。不过,我一般不会推荐它,它在各个地方都很慢而且很麻烦。 Weka是一个更强大的工具,但它可以做得更多的事实使它更难理解。如果朴素贝叶斯是您打算使用的所有,那么您自己编写代码可能是最快的。

EDIT(更晚):

尝试scikit-learn,它是非常容易使用。