2012-08-17 56 views
1

我在一些特定的网站上运行我的抓取工具www.example.com。约100个条目后,爬行器被CAPTCHA阻止。另一方面,当我进入Google并搜索site:www.example.com时,我得到100,000个搜索结果,并且结果被Google正确缓存。为什么Google抓取工具未被CAPTCHA封锁?

我的问题:Google机器人怎么没有被阻止,我是?这是因为Google使用了数千种不同的IP,还是有其他一些技巧?

+0

这很可能是因为网站所有者明确允许Google这样做(可能通过IP) – 2012-08-17 16:27:26

回答

0

一般来说,网站所有者有兴趣从搜索引擎获取流量,所以他们甚至可能会将Google加以白名单。

顺便说一句,你使用查询之间的超时?如果您经常查询,则可能会因服务器负载过重而被阻止。