我有我自己的Python爬虫(基于CS101从Udacity.com),尝试下载从download.cnet.com,当履带式爬行,我希望它是这样工作的文件(安装):如何抓取并从动态网址下载文件?
告诉如果该链接是一个下载链接:
响应= urllib2.urlopen( 'http://example.com/')
CONTENT_TYPE = response.info()得到( '内容类型')
打印CONTENT_TYPE
如果履带变:
application/octet-stream
- 抓取工具会从链接
下载安装程序问题是download.com似乎没有提供真正的d下载链接,我的抓取工具无法从其动态链接中找到下载链接。例如,当我尝试在download.com下载Opera时,他们确实有这样的消息:“您的下载将立即开始,如果没有,请重新开始下载。”但是,当我选中“重新启动下载”链接时,我期待获得真正的下载链接(例如download.com/blah/Opera.exe),而我有一些我的抓取工具无法理解的奇怪地址。
所以我已经从http://googlewebmastercentral.blogspot.no/2008/09/dynamic-urls-vs-static-urls.html确认download.com正在使用动态链接,但我应该怎么做才能让我的抓取工具找到这个链接,以便它可以从download.com下载安装程序?
我同意。我将使用像PhantomJS或HTMLUnitDriver这样的无头浏览器抓取程序作为Selenium的一部分。 – djangofan 2013-04-06 21:30:35