2011-08-27 119 views
0

我想弄清楚如何为我的应用程序最好地配置Solr。我正在建立索引(主要是德语)PDF文档,并且我正在使用dismax查询来查询Solr。Apache Solr:正确使用CompoundWordFilter

如果文档包含单词“Firmenprofil”(德语复合词 - >'公司简介'),它将只在查询中返回该单词。但是,仅包含“Profil”的查询也会返回此文档。

我下载了一个德语字典文件,并将DictionaryCompoundWordTokenFilter应用于索引分析器和查询分析器。

的问题是,该过滤器分解在“Firmenprofil”,然后产生具有各种含有类的字眼文件的情况下,查询到非常小部件(例如,“亲”,“产品”退回。 ..)。

我试图从查询分析器中删除过滤器,导致solr找不到文档。我也试着离开查询过滤器,但明确地将onlyLongestMatch选项设置为true,但这似乎没有任何效果。

回答

0

没有你的实际配置文件,它是一个猜谜游戏。

您是否检查profil是字典的一部分?

1

好吧,好像我的字典文件太大了(〜20mb)。我用一个更紧凑的替换它,现在它工作得很好...

+0

是的,我检查过,没有发布任何配置,但我现在已经解决了这个问题 – DeX3