我搜索一个可以成熟并可以简单扩展的网络爬虫解决方案。我喜欢下面的功能...或可能延长履带,以满足他们:是否存在任何开放的,简单的可扩展的网络爬虫?
- 部分刚读几个网站
- 的饲料放弃这些网站的内容
- 如果网站有一个档案我想抓取并索引它
- 爬虫应该能够探索我的网络的一部分,它应该能够决定哪些网站符合给定的标准
- 应该能够通知我,如果事情可能符合我的兴趣
- 履带不应受到太多的请求,攻击它杀死服务器,它应该是聪明做的爬行
- 履带应当针对怪胎网站和服务器
那些东西上面可以做一个稳健由一个没有任何大的努力,但我感兴趣的任何解决方案,提供了一个可定制的,可扩展的履带。我听说过Apache Nutch,但对目前的项目非常不确定。你有经验吗?你能推荐替代品吗?
似乎是一个好东西,我喜欢它是红宝石,我喜欢,作者创造了一个很好的爬虫的dsl。但与nutch相比,我仍然没有看到rss feed支持和诸如pdf爬行之类的东西。但它是可扩展的。感谢分享参考海葵。 – fifigyuri 2010-01-19 08:31:07
不用担心。乐意效劳。 – 2010-01-19 17:16:53