2010-01-18 103 views
7

我搜索一个可以成熟并可以简单扩展的网络爬虫解决方案。我喜欢下面的功能...或可能延长履带,以满足他们:是否存在任何开放的,简单的可扩展的网络爬虫?

  • 部分刚读几个网站
  • 的饲料放弃这些网站的内容
  • 如果网站有一个档案我想抓取并索引它
  • 爬虫应该能够探索我的网络的一部分,它应该能够决定哪些网站符合给定的标准
  • 应该能够通知我,如果事情可能符合我的兴趣
  • 履带不应受到太多的请求,攻击它杀死服务器,它应该是聪明做的爬行
  • 履带应当针对怪胎网站和服务器

那些东西上面可以做一个稳健由一个没有任何大的努力,但我感兴趣的任何解决方案,提供了一个可定制的,可扩展的履带。我听说过Apache Nutch,但对目前的项目非常不确定。你有经验吗?你能推荐替代品吗?

回答

2

GitHub上快速搜索Anemone,这是一个网络蜘蛛框架,它似乎符合您的要求 - 尤其是可扩展性。用Ruby编写。
希望它顺利!

+0

似乎是一个好东西,我喜欢它是红宝石,我喜欢,作者创造了一个很好的爬虫的dsl。但与nutch相比,我仍然没有看到rss feed支持和诸如pdf爬行之类的东西。但它是可扩展的。感谢分享参考海葵。 – fifigyuri 2010-01-19 08:31:07

+0

不用担心。乐意效劳。 – 2010-01-19 17:16:53

2

我热忱推荐heritrix。这是非常灵活的,我认为是最经过测试的可免费使用的开源爬虫,因为它是Internet Archive使用的。

2

您应该能够找到适合您需求的东西here

+0

被这些东西只有在java中创造出来的? – Toad 2010-01-18 13:32:08

+0

该文章标题为“用Java编写的开源Web爬虫”。但是,您可以找到使用其他语言构建的网页抓取工具,以便为您提供所需的内容。 – Brian 2010-01-26 16:08:13

4

当我为我的Krugle启动构建开源项目索引时,我广泛使用了Nutch。很难定制,是一个相当庞大的设计。有一个插件架构,但插件和系统之间的交互是棘手和脆弱的。

作为这种体验的结果,并且需要更多的灵活性,我开始了Bixo项目 - 一个Web挖掘工具包。 http://openbixo.org

无论是适合你取决于多种因素,如权重:

  1. 你多少灵活性需要(+)
  2. 如何成熟的IT应为( - )
  3. 无论你需要的能力量表(+)
  4. 如果您熟悉的Java/Hadoop的(+)