2011-02-23 61 views
3

我正在使用wget下载网页的大量列表(大约70,000)。我被迫在连续的wget之间放置了大约2秒的睡眠时间。这需要大量时间。像70天。我想要做的是使用代理,以便我可以大大加快过程。我正在使用一个简单的bash脚本来处理这个过程。任何建议和意见,我都赞赏。使用wget优化网页抓取

回答

3

第一个建议是不使用Bash或wget。我会用Python和美丽的汤。 Wget并不是专为屏幕抓取而设计的。

通过在每台机器上运行一部分列表,在多台机器上分散负载。

由于它听起来像带宽是你的问题,你可以很容易地产生一些云图像,并把你的脚本扔在那些家伙。

+0

我下载了美丽的汤。但我不认为我需要那个。我的瓶颈正在将网页下载到我的机器中。一旦我有页面,我可以提取我想要的信息,只需一个grep命令。我是不是很熟悉Python。是否有任何库来优化实际的数据收集(让网页到您的PC)。带宽不是我的问题。至少不是导致目前问题的问题。我所在的站点为了防止拒绝服务攻击(我假设,因此我迫切需要等待)。我可以考虑跨多台机器或云部署。 – liv2hak 2011-02-23 00:46:03

+0

那么我推荐python的另一个原因是,你不必一直执行进程并重新建立连接。一个python脚本可能能够重用连接,从而更加友好的服务器。 ...我希望你不要做任何坏事:) – 2011-02-23 00:48:46

+0

thanks.will挖入python.and不,我没有做你认为我是。 :) – liv2hak 2011-02-23 01:02:24