我想弄清楚如何为我的应用程序最好地配置Solr。我正在建立索引(主要是德语)PDF文档,并且我正在使用dismax查询来查询Solr。Apache Solr:正确使用CompoundWordFilter
如果文档包含单词“Firmenprofil”(德语复合词 - >'公司简介'),它将只在查询中返回该单词。但是,仅包含“Profil”的查询也会返回此文档。
我下载了一个德语字典文件,并将DictionaryCompoundWordTokenFilter
应用于索引分析器和查询分析器。
的问题是,该过滤器分解在“Firmenprofil”,然后产生具有各种含有类的字眼文件的情况下,查询到非常小部件(例如,“亲”,“产品”退回。 ..)。
我试图从查询分析器中删除过滤器,导致solr找不到文档。我也试着离开查询过滤器,但明确地将onlyLongestMatch
选项设置为true,但这似乎没有任何效果。
是的,我检查过,没有发布任何配置,但我现在已经解决了这个问题 – DeX3