2011-01-06 64 views
2

我正在开发一个系统,该系统必须跟踪少量门户网站的内容,并每天晚上检查更改(例如,下载和索引在白天添加的新网站)。此门户网站的内容将被索引以进行搜索。问题在于重新抓取这些门户网站 - 首先对门户网站的抓取需要很长时间(门户网站的示例:www.onet.pl,www.bankier.pl,www.gazeta.pl),我希望更快地抓取它(尽可能快)例如通过检查修改日期,但我已经使用wget下载www.bankier.pl,但作为回应,它抱怨说没有最后修改标题。 有没有办法重新抓取这么多的网站?我也尝试过使用Nutch,但重新抓取脚本似乎不能正常工作 - 或者它也取决于这个标题(最后修改)。 也许有一种工具,履带(像Nutch或其他),可以通过添加新的更新已经下载的网站?快速重新抓取网站

最好的问候, WOJTEK

回答

0

对于Nutch的,我已经写上how to re-crawl with Nutch博客文章。基本上,您应该为db.fetch.interval.default设置设置较低的值。在下一次获取URL时,Nutch将使用最后一次获取时间作为HTTP头的值作为If-Modified-Since HTTP头。

+0

并非所有网站都 '如果-Modified-Since的'。看看'Last-Modified'也能提供帮助。 – 2013-02-12 18:21:08

1

我推荐使用curl来只抓取头部并检查Last-Modified头部是否已经改变。

例子:

curl --head www.bankier.pl