为什么Google抓取工具未被CAPTCHA封锁？

我在一些特定的网站上运行我的抓取工具www.example.com。约100个条目后，爬行器被CAPTCHA阻止。另一方面，当我进入Google并搜索site:www.example.com时，我得到100,000个搜索结果，并且结果被Google正确缓存。为什么Google抓取工具未被CAPTCHA封锁？

我的问题：Google机器人怎么没有被阻止，我是？这是因为Google使用了数千种不同的IP，还是有其他一些技巧？

来源

2012-08-17 Jakub M.

这很可能是因为网站所有者明确允许Google这样做（可能通过IP） – 2012-08-17 16:27:26

一般来说，网站所有者有兴趣从搜索引擎获取流量，所以他们甚至可能会将Google加以白名单。

顺便说一句，你使用查询之间的超时？如果您经常查询，则可能会因服务器负载过重而被阻止。

来源

2012-08-17 16:28:41 Kryzhovnik

为什么Google抓取工具未被CAPTCHA封锁？

回答

相关问题