2010-07-02 46 views
1

我正在使用Luke查看Lucene索引。有一个名为'Rank'的列。它的实际含义是什么?我的猜测是Rank是指发生的次数和更大的Rank数字,意思是这个词更重要。但我不明白的是它是全文搜索。如果我搜索'苹果',所有'苹果'索引将被返回,这与Rank'apple'的内容无关。我有一个错误的理解?如果不是,那么排名列的实际用途是什么?当Luke观看时,Lucene中'Rank'的实际含义是什么?

当我检查索引时,看起来有相当一些“噪音”,例如,字符'o'的排名数字非常高。这是否意味着这个指数不好?我应该如何解决它? 在此先感谢。

回答

1

'Rank'是一个字段内某个术语的频率。这并不意味着它更重要。事实上,最不频繁的术语往往是索引中最重要的术语。但了解索引中最频繁的条件对于分析或调试有时非常重要(例如,请参见this question)。

事实上,你有很多像'o'这样的词并不意味着你的索引是坏的。检查用于索引的标记器和分析器。一些标记器剥掉标点符号上的文字。有些分析仪会干扰词汇,而且往往会产生单个字母词汇。有很多原因可以解释单个字母词的存在。

如果您在索引中看到很多不期望的术语,可以考虑在索引时使用停用词过滤器。 Lucene为此提供了功能。