进口重,urllib的正则表达式的问题,文件扩展名的Python 2.7
def get_files(page):
a = urllib.urlopen(page)
b = a.read()
c = re.findall("([a-zA-Z0-9]+\.{1}(jpg|bmp|docx|gif))",b)
return c
def main():
print get_files("http://www.soc.napier.ac.uk/~40001507/CSN08115/cw_webpage/index.html")
if __name__ == "__main__":
main()
后,我跑了这个代码,我与它的正则表达式的问题,因此,答案是这样的:
[('clown.gif', 'gif'), ('sleeper.jpg', 'jpg'), ('StarWarsReview.docx', 'docx'), ('wargames.jpg', 'jpg'), ('nothingtoseehere.docx', 'docx'), ('starwars.jpg', 'jpg'), ('logo.jpg', 'jpg'), ('certified.jpg', 'jpg'), ('clown.gif', 'gif'), ('essays.gif', 'gif'), ('big.jpg', 'jpg'), ('Doc100.docx', 'docx'), ('FavRomComs.docx', 'docx'), ('python.bmp', 'bmp'), ('dingbat.jpg', 'jpg')]
我不希望结果如此('clown.gif', 'gif')
我想要的全部是['clown.gif','sleeper.jpg']
等
有没有办法做到这一点?并得到红色的元组?
非常感谢。这很有帮助 – ibr2