我正在开发一个系统,该系统必须跟踪少量门户网站的内容,并每天晚上检查更改(例如,下载和索引在白天添加的新网站)。此门户网站的内容将被索引以进行搜索。问题在于重新抓取这些门户网站 - 首先对门户网站的抓取需要很长时间(门户网站的示例:www.onet.pl,www.bankier.pl,www.gazeta.pl),我希望更快地抓取它(尽可能快)例如通过检查修改日期,但我已经使用wget下载www.bankier.pl,但作为回应,它抱怨说没有最后修改标题。 有没有办法重新抓取这么多的网站?我也尝试过使用Nutch,但重新抓取脚本似乎不能正常工作 - 或者它也取决于这个标题(最后修改)。 也许有一种工具,履带(像Nutch或其他),可以通过添加新的更新已经下载的网站?快速重新抓取网站
最好的问候, WOJTEK
并非所有网站都 '如果-Modified-Since的'。看看'Last-Modified'也能提供帮助。 – 2013-02-12 18:21:08