2016-08-30 33 views
0

我们已经采取的文件量大,使用屈臣氏文档转换服务打破他们分成段(“回答单位”),并将其添加到检索和排名Solr的集合。如果我使用文本的复制/粘贴(也许150字)答案单位之一运行针对集合的查询,检索和排名将返回一堆文件,以及(如预期)的业绩包括其应答单元查询文本被复制。 但是,这个答案单元并不是最重要的结果;它通常是从顶部7或8个文件。如果我用引号括住查询文本,则Solr正确地认为该短语只返回单个答案单元。 尽管没有引号,查询中确切用词的文档是否仍然是结果中的顶级文档?为什么不是与检索和排名Solr查询中的第一个结果完全匹配的文档?

+0

我不知道,如果RAR支持它,但对于普通的Solr追加'debugQuery = TRUE'到您的查询就会给你关于这方面作出重大贡献的得分以及为什么他们的排名,因为他们做的信息。分数的计算方式取决于相似性类别是否处于活动状态,并且RaR可能使用自定义类别(或按不同字段对文档进行评分)。 – MatsLindh

回答

2

看来您使用/选择端点进行搜索。它不应该是最重要的结果,因为它不使用短语查询进行搜索。/select使用一个布尔查询来考虑像idf分数这样的事情,以得出最终的solr分数。您已经通过添加引号看到了,如果您的应用程序想要这样做,则可以强制执行短语查询。这现在负责知道使用什么类型的查询到您的应用程序。

现在,如果你正在使用/ fcselect和培训系统,随着时间的推移排名器将“学习”,在你的问题/文档对词组是最重要的,如果说是事实上的情况。然后它会开始将这些文件重新排列更高。这主要是RNR点是从查询和文档来学习如何把最相关的文档顶端没有你的应用程序需要编写不同的(通常时间复杂)Solr的查询,找到文件。

相关问题