需要解释Solr的语言Stemmer

2012-05-21 50 views 0 likes

我正在使用nutch与Solr开发阿拉伯文本的搜索引擎。我需要实现我的阿拉伯语文本一个词干，虽然serching上Solr的施特默尔我发现，它提供这两个过滤器需要解释Solr的语言Stemmer

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我想他们，但不明白他们在做什么。所以请任何人都可以帮助我举一些例子？

，做这两个做到这一点：

العملات朵朵到عملة

البساتين，بساتينكم梗到بستان

谢谢。

来源

2012-05-21 sakurami

回答

你可以在这里找到一些细节：http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

，上面写着：

词干提取被定义为：

去除附着定冠词，连词，介词及的。
通常后缀的词干。

来源

2012-05-22 00:00:43

谢谢沃尔特，它似乎做了一些我需要的东西。如果我想更新stemmer或添加我自己的，你在哪里建议添加我的代码？如果我将stemmer添加到内容中，然后搜索一个关键字，比如说“عملة”，结果中默认包含带有“عملة”和“عملات”的文档，或者我需要做额外的配置吗？ ..... 再次感谢你。 – sakurami

如果这两个都被阿拉伯树干转换为相同的词干，那么它们将匹配。 Solr将为索引和查询执行相同的转换。 –

需要解释Solr的语言Stemmer

回答

相关问题