我使用使用Spyder的3.0批量下载的文本文件在Python 2.7的urllib2模块通过读取包含这些列表的文本文件(?):Python的ValueError异常:未知的URL类型:空间
reload(sys)
sys.setdefaultencoding('utf-8')
with open('ocean_not_templated_url.txt', 'r') as text:
lines = text.readlines()
for line in lines:
url = urllib2.urlopen(line.strip('ï \xa0\t\n\r\v'))
with open(line.strip('\n\r\t ').replace('/', '!').replace(':', '~'), 'wb') as out:
for d in url:
out.write(d)
我已经发现了一串奇怪的字符,我已经因为剥离,然而,脚本的时候几乎完成了90%,给下面的错误失败的URL:
我认为这是一个不间断的空间(用\ xa0 in表示)代码),但仍然失败。有任何想法吗?
嗯..我应该在哪里指定协议?顺便提一下,谢谢你的建议。 – snl330
@Samuel我已经更新了答案。一探究竟! – varun
我明白了。谢谢你的详细解答!前缀“http://”已经存在于文本文件的URL列表中,例如:http://www1.ncdc.noaa.gov/pub/data/paleo/paleocean/sediment_files/complete/e49-23 -tab.txt'。 (它们在ftp服务器上。)是否有可能这些URL不再使用,导致问题?我知道他们已经被我们的数据管理员调动过了,有些还很古老。再次感谢。 – snl330