2010-10-07 54 views
4

我有一个有点大的文档,想要停止词消除,并用Python语言来描述这个文档的词汇。有没有人知道这些的货架包装? 如果没有足够快的大型文档代码也是值得欢迎的。 谢谢Python中的停止词消除和词干分析器

回答

8

NLTK支持这一点。

+0

是的,使用NLTK。它是开源的,可在Windows,Mac和Linux上运行。 – 2010-10-07 15:16:12

4

如果由于某种原因你不想使用NLTK,你可以尝试PyStemmer。对于停止词只是下载一个列表(谷歌它)和过滤出来。