为Web统计信息编写伪爬网程序

我负责编写Web伪爬网程序以计算某些统计信息。我需要测量以<DOCTYPE开头的html文件的百分比与没有它的html文件的数量并比较不同主题上的站点之间的统计。要这样做的想法是谷歌搜索不同的条款（如“汽车”，“股票交易所”，“抽脂”...），并要求找到前300页。为Web统计信息编写伪爬网程序

我想这个过程非常快，但我不想被谷歌禁止。当然，我希望尽可能缩短开发时间。也许一些愚蠢的Perl脚本。

是否有任何现成的解决方案，我可以并应该重用？对于Google，我没有找到合适的东西，因为我想测量的不是HTML的一部分，而是驻留在HTML文件中。

来源

2009-12-06 Muxecoid

wget可以做一切事情，包括限制您的请求率。

来源

2009-12-06 15:42:32

+1 wget的是真棒，我用了很多。但是，有些人需要GUI :) – 2009-12-06 15:46:23

无头跑步的能力对我来说是一种奖励。其实这是我最初的想法。我应该从perl中调用wget，并在循环中使用google的url，而不是在嵌套循环中运行wget？我没有找到如何为wget中的单个文件设置配额。 – Muxecoid 2009-12-06 16:03:59

我在想你可以使用'--wait = SECONDS'或'--random-wait'，可能使用递归标志'-r'。 – 2009-12-06 16:12:57

HTTrack也相当不错，易于使用。有一个很好的图形用户界面和很多选项。

源也可以，如果你正在寻找灵感：here

来源

2009-12-06 15:44:11

wget适用于Windows：http://gnuwin32.sourceforge.net/packages/wget.htm – 2009-12-06 15:51:00

不错，我认为它需要Cygwin。很高兴知道，现在下载... :) – 2009-12-06 15:54:38

根据John Paulett的上述评论编辑我的答案;） – 2009-12-06 15:56:49

为Web统计信息编写伪爬网程序

回答

相关问题