2009-12-06 60 views
1

我负责编写Web伪爬网程序以计算某些统计信息。我需要测量以<DOCTYPE开头的html文件的百分比与没有它的html文件的数量并比较不同主题上的站点之间的统计。要这样做的想法是谷歌搜索不同的条款(如“汽车”,“股票交易所”,“抽脂”...),并要求找到前300页。为Web统计信息编写伪爬网程序

我想这个过程非常快,但我不想被谷歌禁止。当然,我希望尽可能缩短开发时间。也许一些愚蠢的Perl脚本。

是否有任何现成的解决方案,我可以并应该重用?对于Google,我没有找到合适的东西,因为我想测量的不是HTML的一部分,而是驻留在HTML文件中。

回答

2

wget可以做一切事情,包括限制您的请求率。

+1

+1 wget的是真棒,我用了很多。但是,有些人需要GUI :) – 2009-12-06 15:46:23

+0

无头跑步的能力对我来说是一种奖励。其实这是我最初的想法。我应该从perl中调用wget,并在循环中使用google的url,而不是在嵌套循环中运行wget?我没有找到如何为wget中的单个文件设置配额。 – Muxecoid 2009-12-06 16:03:59

+1

我在想你可以使用'--wait = SECONDS'或'--random-wait',可能使用递归标志'-r'。 – 2009-12-06 16:12:57

0

HTTrack也相当不错,易于使用。有一个很好的图形用户界面和很多选项。

源也可以,如果你正在寻找灵感:here

+2

wget适用于Windows:http://gnuwin32.sourceforge.net/packages/wget.htm – 2009-12-06 15:51:00

+0

不错,我认为它需要Cygwin。很高兴知道,现在下载... :) – 2009-12-06 15:54:38

+0

根据John Paulett的上述评论编辑我的答案;) – 2009-12-06 15:56:49