2008-11-12 71 views

回答

11

在我看来,这是一个相当显著孔是阻止Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档导入管道。 Nutch确实有效,但Nutch crawler和Solr之间的整合有点笨拙。
我已经尝试了所有我可以找到的开源爬虫,并且他们都没有集成Solr的开箱即用。
关注OpenPipeline和Apache Tika。

4

我建议你检查出Nutch得到一些启示:

Nutch的是开源的web搜索软件。它建立在Lucene的Java中,加入网络的细节,如履带,链接,图形数据库,解析器HTML等文档格式等

4

同时检查Apache Droids [http://incubator.apache.org/droids/] - 这个希望不是一个简单的蜘蛛/爬虫/工作者框架。

这是新的,现成的使用起来并不容易(它需要一些tweeking来运行),但是保持你的注意是一件好事。

2

Nutch可能是你最接近的比赛,但它不太灵活。

如果你需要更多的东西,你将不得不非常剽窃你自己的抓取工具。它并没有听起来那么糟糕,每种语言都有网络库,所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来,这并不是什么大事。您最有可能逃避一个盒子,因为抓取主要是带宽关注的,而不是CPU密集型的。

6

我试过nutch,但是很难与Solr整合。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与Solr集成,并且在抓取时要快得多。它广泛使用线程来加速进程。

0

有没有人试过Xapian?它比solr更快,而且用C++编写。