2009-09-13 55 views
2

我的目标是建立一个新闻提要和博客提要的聚合,以便让 在其中轻松搜索/跟踪实体。我一直在寻找诸如小猎犬,Lucene,SWISH-E等许多解决方案。应该使用哪个开源搜索引擎?

基本上,我只能找到两个在这些引擎上完成的比较研究的来源,其中一个比较有点过时。基本上我想要一个搜索引擎,可以在数据量不是很大的情况下使用,但索引频繁,每30分钟左右一次。我觉得在这种情况下,梗犬不是一个好工具。当数据量较大,更新频率较低时,效果更好。有人在信息检索领域工作过,可以提供一些建议吗?

回答

3

Lucene是众所周知和支持,所以亲自,这将是我的第一选择。

+0

他似乎同意你 - http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-source-search-engines-and-indexing-twitter/ – vinutheraj 2009-09-13 18:22:41

+0

怎么办?我的主要目的是做研究,而Lucene没有提供太多的相似/评分算法。除了梗之外,有没有可能试用过的学术开源引擎? – vinutheraj 2009-09-15 12:10:37

+1

Lucene确实允许在评分周围进行相当多的操作。邮件列表中的一些搜索应该提供一些信息。 – daveb 2009-09-15 20:39:38

1

如果您发现一个随时可用的搜索引擎,请查看fastcatsearch。

它已被开发用于商业搜索,并应用于很多不同的网站。

比lucene更快,并且具有基于web的网页管理器,可以轻松使用。

主办在github,并检查出来。​​