好的,我使用的脚本是从urls.txt中列出的URL下载文件。解析URL链接列表中的文件名
import urllib.request
with open("urls.txt", "r") as file:
linkList = file.readlines()
for link in linkList:
urllib.request.urlretrieve(link)
不幸的是,他们被保存为临时文件,由于缺乏在我urllib.request.urlretrieve函数的第二个参数。由于我的文本文件中有数千个链接,因此不能单独命名它们。问题是,该文件的名称包含在这些链接,即/DocumentXML2XLSDownload.vm?firsttime=true & repengback =真& d ocumentId = XXXXXX & XSL文件名= rher2xml.xs升& outputFileName = XXX X_2017_06_25_4 .xls文件的名称在outputFileName =
有没有简单的方法来解析文件名,然后在urllib.request.urlretrieve函数中使用它们作为第二参数?我正在考虑在excel中提取这些名称,并将它们放在另一个文本文件中,该文件将以与urls.txt类似的方式读取,但我不确定如何在Python中实现它。或者有没有一种方法可以在不使用excel的情况下使用python?
看来这个方法返回file_name <_sre.SRE_Match对象; span =(156,178),match ='XXXX_2017_06_25_4.xls \ n'>因为我得到TypeError:无效的文件: – Seidhe
@Seidhe我的不好,它现在应该工作。你能再试一次吗? – GBlomqvist
看起来应该在印刷品中有左括号。除此之外,我得到这样的错误: 回溯(最近通话最后一个): 文件 “H:\我的文档\ PYTHON \ download.py”,8号线,在 FILE_NAME = re.search(正则表达式,链接).group(0) 文件“F:\ TOO \ Team \ Software \ Anaconda3 \ lib \ re.py”,行173,搜索 return _compile(pattern,flags).search(string) File“ F:\ TOO \ Team \ Software \ Anaconda3 \ lib \ re.py“,行293,in _compile p = sre_compile.compile(pattern,flags) sre_constants.error:未终止的字符集位置47 –
Seidhe