2008-12-01 58 views
2

我想实现一个搜索引擎,它应该抓取一组网站,从网页中提取特定的信息并创建该特定信息的全文索引。Xapian的履带/解析器

在我看来,Xapian可能是搜索引擎库的不错选择。

爬虫/解析器与Xapian集成有哪些选项?

Solr是否比Xapian更好地选择与开源搜索器/解析器集成?

回答

2

Here's Xapian和Solr稍微比较一下。

但是,如果你想构建一个爬虫,看看Nutch。这是extensible with plugins,所以你可以写一个插件,分析你正在寻找的信息。

2

Flax可能会提供一些你正在寻找的东西。