快速重新抓取网站

我正在开发一个系统，该系统必须跟踪少量门户网站的内容，并每天晚上检查更改（例如，下载和索引在白天添加的新网站）。此门户网站的内容将被索引以进行搜索。问题在于重新抓取这些门户网站 - 首先对门户网站的抓取需要很长时间（门户网站的示例：www.onet.pl，www.bankier.pl，www.gazeta.pl），我希望更快地抓取它（尽可能快）例如通过检查修改日期，但我已经使用wget下载www.bankier.pl，但作为回应，它抱怨说没有最后修改标题。有没有办法重新抓取这么多的网站？我也尝试过使用Nutch，但重新抓取脚本似乎不能正常工作 - 或者它也取决于这个标题（最后修改）。也许有一种工具，履带（像Nutch或其他），可以通过添加新的更新已经下载的网站？快速重新抓取网站

最好的问候， WOJTEK

来源

2011-01-06 Wojtek

对于Nutch的，我已经写上how to re-crawl with Nutch博客文章。基本上，您应该为db.fetch.interval.default设置设置较低的值。在下一次获取URL时，Nutch将使用最后一次获取时间作为HTTP头的值作为If-Modified-Since HTTP头。

来源

2011-01-06 19:00:10

并非所有网站都 '如果-Modified-Since的'。看看'Last-Modified'也能提供帮助。 – 2013-02-12 18:21:08

我推荐使用curl来只抓取头部并检查Last-Modified头部是否已经改变。

例子：

curl --head www.bankier.pl

来源

2011-01-06 19:03:27

快速重新抓取网站

回答

相关问题