1
我在一些特定的网站上运行我的抓取工具www.example.com
。约100个条目后,爬行器被CAPTCHA阻止。另一方面,当我进入Google并搜索site:www.example.com
时,我得到100,000个搜索结果,并且结果被Google正确缓存。为什么Google抓取工具未被CAPTCHA封锁?
我的问题:Google机器人怎么没有被阻止,我是?这是因为Google使用了数千种不同的IP,还是有其他一些技巧?
这很可能是因为网站所有者明确允许Google这样做(可能通过IP) – 2012-08-17 16:27:26