Q

建议使用Lucene或Solr的蜘蛛工具？

2008-11-12 71 views 16 likes

16

对于HTML和XML文档（本地或基于Web）使用什么样的好爬虫（蜘蛛），并且在Lucene/Solr解决方案空间中运行良好？可能是基于Java的，但不一定是。建议使用Lucene或Solr的蜘蛛工具？

2008-11-12 BuddyJoe

A

回答

11

在我看来，这是一个相当显著孔是阻止Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步，但Solr没有一个好的文档导入管道。 Nutch确实有效，但Nutch crawler和Solr之间的整合有点笨拙。
我已经尝试了所有我可以找到的开源爬虫，并且他们都没有集成Solr的开箱即用。
关注OpenPipeline和Apache Tika。

2008-11-12 21:28:16 Geordie

4

我建议你检查出Nutch得到一些启示：

Nutch的是开源的web搜索软件。它建立在Lucene的Java中，加入网络的细节，如履带，链接，图形数据库，解析器HTML等文档格式等

2008-11-12 01:19:12 lbz

4

同时检查Apache Droids [http://incubator.apache.org/droids/] - 这个希望不是一个简单的蜘蛛/爬虫/工作者框架。

这是新的，现成的使用起来并不容易（它需要一些tweeking来运行），但是保持你的注意是一件好事。

2008-11-14 17:33:38

2

Nutch可能是你最接近的比赛，但它不太灵活。

如果你需要更多的东西，你将不得不非常剽窃你自己的抓取工具。它并没有听起来那么糟糕，每种语言都有网络库，所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来，这并不是什么大事。您最有可能逃避一个盒子，因为抓取主要是带宽关注的，而不是CPU密集型的。

2009-01-11 01:02:18 taw

6

我试过nutch，但是很难与Solr整合。我会看看Heritrix。它有一个广泛的插件系统，可以很容易地与Solr集成，并且在抓取时要快得多。它广泛使用线程来加速进程。

2009-05-01 21:06:02 John

0

有没有人试过Xapian？它比solr更快，而且用C++编写。

2009-10-08 11:17:22 user87400

2

http://arachnode.net

C＃，但产生的Lucene（Java和C＃）消耗品索引文件。

2013-03-03 20:27:03

相关问题