2008-10-22 52 views
7

我需要一个很好的干扰算法来处理我正在处理的项目。有人建议我看看Porter Stemmer。当我检查了波特词干的页面时,我发现它现在已被弃用,转而使用“雪球”词干。什么是最好的“交钥匙”干扰算法?

我需要一个好的stemmer,但我真的不能花大量的时间来实现(或优化)我自己的。什么是最好的“现成”,免费提供的stemmer?有没有非合理的价格?或者,雪球制作者是我最好的选择?

回答

8

Porter2词法分析器是我决定使用的词法分析器。看起来porter stemmer是标准的,但是当我找到作者的页面时,他推荐了“Snowball(Porter2)”词干。此页面上有一个C端口链接。

2

这实际上取决于你打算如何应用它。自然语言工具包(http://nltk.sourceforge.net)在其中实现了许多干扰源,它们应该能够处理大多数应用程序。我更喜欢Morphy的词干。

当然,它可以在Python中使用,所以如果您使用的是其他语言,您可以随时查看代码以收集算法并将其转换为您选择的语言。 Python非常易读。