2009-02-27 69 views
6

Stemming是标记系统所需要的。我使用美味,我没有时间管理和修剪我的标签。我对我的博客有点小心,但并不完美。我编写嵌入式系统的软件,如果它们包含词干,它将更加实用(对用户有帮助)。Stemming - 代码示例或开源项目?

例如:
解析
分析器
解析

应该都表示我把什么系统他们进入同样的事情。

理想情况下,某处有BSD授权的stemmer,但如果不是,我该如何学习常见算法和技术?

除了BSD stemmers外,还有哪些其他开源许可的stemmers?

- 亚当

+0

有人需要添加http://snowball.tartarus.org/作为答案(提示,提示)... – 2009-02-27 15:01:58

回答

1

Lucene在一个词干,我相信(IIRC和它可以让你用你自己的,如果你想)。

编辑:刚才检查,和Lucence指的是Snowball网站这是一个开源的词干库,据我所知。