是否存在任何开放的，简单的可扩展的网络爬虫？

我搜索一个可以成熟并可以简单扩展的网络爬虫解决方案。我喜欢下面的功能...或可能延长履带，以满足他们：是否存在任何开放的，简单的可扩展的网络爬虫？

那些东西上面可以做一个稳健由一个没有任何大的努力，但我感兴趣的任何解决方案，提供了一个可定制的，可扩展的履带。我听说过Apache Nutch，但对目前的项目非常不确定。你有经验吗？你能推荐替代品吗？

2010-01-18 fifigyuri

在GitHub上快速搜索Anemone，这是一个网络蜘蛛框架，它似乎符合您的要求 - 尤其是可扩展性。用Ruby编写。
希望它顺利！

2010-01-18 21:24:56

似乎是一个好东西，我喜欢它是红宝石，我喜欢，作者创造了一个很好的爬虫的dsl。但与nutch相比，我仍然没有看到rss feed支持和诸如pdf爬行之类的东西。但它是可扩展的。感谢分享参考海葵。 – fifigyuri 2010-01-19 08:31:07

不用担心。乐意效劳。 – 2010-01-19 17:16:53

我热忱推荐heritrix。这是非常灵活的，我认为是最经过测试的可免费使用的开源爬虫，因为它是Internet Archive使用的。

2010-01-18 10:32:27

您应该能够找到适合您需求的东西here。

2010-01-18 11:03:04 Kane

被这些东西只有在java中创造出来的？ – Toad 2010-01-18 13:32:08

该文章标题为“用Java编写的开源Web爬虫”。但是，您可以找到使用其他语言构建的网页抓取工具，以便为您提供所需的内容。 – Brian 2010-01-26 16:08:13

当我为我的Krugle启动构建开源项目索引时，我广泛使用了Nutch。很难定制，是一个相当庞大的设计。有一个插件架构，但插件和系统之间的交互是棘手和脆弱的。

作为这种体验的结果，并且需要更多的灵活性，我开始了Bixo项目 - 一个Web挖掘工具包。 http://openbixo.org。

无论是适合你取决于多种因素，如权重：

2010-01-31 15:47:44 kkrugler

回答