2010-12-14 65 views
2

是否有人知道任何链接,论文,演示文稿或博客文章描述了建立在分布式键/值存储上的大型全文搜索引擎?基于分布式键/值存储的搜索引擎的体系结构?

我对索引的组织特别感兴趣。数据结构究竟是什么?字典和帖子在哪里以及如何存储?查询处理的工作流程是什么?如何处理查询以便不需要在网络上传输大量数据?

我收集Blekko是这样构建的。我想知道他们或他们的竞争对手实际上做了什么。

回答

0

我不知道有任何博客文章或文章可以回答你的问题恰恰是。但是,这里有一些我认为与您的问题相关的资源,我希望他们能帮助您提供答案。

首先,杰夫·迪恩对谷歌的体系结构的发展基调,

接下来,还有名为Lucandra千伏商店之上的开源搜索引擎 - 顾名思义,Lucene在Cassandra之上,都是Apache项目。

为了了解Lucandra是如何工作的,检查出的实施和所做的是谈论如何卡桑德拉Lucene索引的数据呈现。

同样,你也可以看到Lucene和HBase是如何共存的。这里有一个链接到Apache提交/补丁,它集成了使用一个在其他搜索层,

对Redis的

另一个类似的文章

接下来,查看可伸缩搜索系统的操作要求

独联体实验室有关于这个问题的一些优秀的研究论文,你应该看看,

对于通用搜索引擎假设可能在上面制作,这里有指向书籍的链接,