我读了一些关于Lucene的文档;我还阅读了链接 (http://lucene.sourceforge.net/talks/pisa)中的文档。lucene如何索引文件?
我真的不明白,索引如何Lucene的文件,不明白哪种算法使用的Lucene索引?
在上述链接,它说Lucene的使用此算法用于索引:
- 增量算法:
- 维持段索引的堆叠
- 对于每个传入文档
创建索引- 推新的索引送到堆栈
- 令b = 10是合并因子; M = 8
for (size = 1; size < M; size *= b) {
if (there are b indexes with size docs on top of the stack) {
pop them off the stack;
merge them into a single index;
push the merged index onto the stack;
} else {
break;
}
}
请问这个算法提供优化索引?
不Lucene的使用B树算法或任何其他算法类似的索引 - 或者它是否有一个特定的算法?
这里的大多数答案都是正确的,即第一个Lucene *创建倒排索引,但是没有解释术语索引随后如何得到*搜索的关键点d *(而且,我相信,OP实际要求的是什么)。所以下面请找到这个相当古老的问题的新答案,希望能提供更好的见解。 – fnl 2017-04-04 09:32:47
我再次更新了我的答案,因为目前的答案(包括我的!)对于回答OP的主要两个问题并不满意(Lucene如何提供优化的索引以及通过哪种特定算法 - 跳过列表而不是B树,BTW)。希望我的最终更新能够正确回答实际问题! – fnl 2017-07-11 10:17:10