我想从某些网站上抓取有用资源(如背景图片..)。这不是一项艰巨的工作,尤其是在scrapy等一些精彩项目的帮助下。网络爬虫更新策略
这里的问题是我不仅仅想抓取这个网站一次。我也想让我的抓取长时间运行并抓取更新后的资源。所以我想知道有没有什么好的策略让网页爬虫获得更新的页面?
下面是我想到的粗略算法。我将抓取过程分为几轮。每个URL URL都会为抓取工具提供一定数量(比如10000)的URL来抓取。然后下一轮。具体步骤是:
- 履带添加起始URL到URL库
- 履带询问最多N次URL抓取
- 爬虫抓取的网址,并更新某些信息,URL库,如URL库页面内容,获取时间以及内容是否已更改。
- 只是回到步骤2
进一步指出,我还需要解决以下问题: 如何决定“刷新性”的网页,这表明该网络的可能性页面已更新?
既然这是一个悬而未决的问题,希望这会带来一些富有成效的讨论。
pdf文章可用:http://infolab.stanford.edu/~olston/publications/crawling_survey.pdf – 2015-01-15 03:30:16
请参阅frontera以使用Scrapy执行此操作https://github.com/scrapinghub/frontera – 2016-01-11 17:28:52