2014-10-28 110 views
-1

我创建了一个脚本来获取Google结果页面的URL链接;该脚本可以正常工作,但它会在你阻止你的IP地址后最多运行3次。

我认为这是因为我的标题包含:python-requests/2.3.0 CPython/2.7.2 Windows/7。所以我试图通过使用标题来改变它,并通过使用site来验证结果。Python请求模块probleme

这是我的头:

headers = { 
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0", 
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
"Accept-Language" : "en-US,en;q=0.5", 
"Connection" : "keep-alive",} 

但还是谷歌检测我作为一个机器人知道,当我与我的浏览器搜索一切工作正常。

如何解决此问题?

+1

[Google API速率限制]的可能重复(http://stackoverflow.com/questions/4662069/google-api-rate-limiting) – 2014-10-28 20:54:03

+0

Google在检测机器人方面非常聪明,并且非常自由地应对验证码挑战。 – 2014-10-28 20:57:41

+0

在你的要求之间休息。我在一个单一IP后面的大型办公楼里工作。我偶尔会遇到一个验证码,因为显然我们在那个时候都需要谷歌。 – 2014-10-28 20:57:49

回答

0

这不是你的脚本的问题。使用脚本自动抓取搜索结果违反了每个搜索引擎的服务条款。搜索引擎嗅探并阻止此类访问。您必须使用Google的官方API之一来获取您的数据。如Google Custom Search或类似的东西。