我负责编写Web伪爬网程序以计算某些统计信息。我需要测量以<DOCTYPE
开头的html文件的百分比与没有它的html文件的数量并比较不同主题上的站点之间的统计。要这样做的想法是谷歌搜索不同的条款(如“汽车”,“股票交易所”,“抽脂”...),并要求找到前300页。为Web统计信息编写伪爬网程序
我想这个过程非常快,但我不想被谷歌禁止。当然,我希望尽可能缩短开发时间。也许一些愚蠢的Perl脚本。
是否有任何现成的解决方案,我可以并应该重用?对于Google,我没有找到合适的东西,因为我想测量的不是HTML的一部分,而是驻留在HTML文件中。
+1 wget的是真棒,我用了很多。但是,有些人需要GUI :) – 2009-12-06 15:46:23
无头跑步的能力对我来说是一种奖励。其实这是我最初的想法。我应该从perl中调用wget,并在循环中使用google的url,而不是在嵌套循环中运行wget?我没有找到如何为wget中的单个文件设置配额。 – Muxecoid 2009-12-06 16:03:59
我在想你可以使用'--wait = SECONDS'或'--random-wait',可能使用递归标志'-r'。 – 2009-12-06 16:12:57