我在csv文件中遍历多个URL;网址都具有一个结构:从python中的URL中提取部分
http://www.parool.nl/parool/nl/4024/AMSTERDAM-CENTRUM/article/detail/3751723/2014/09/21
http://www.parool.nl/parool/nl/5/POLITIEK/article/detail/3751624/2014/09/20/VVD-wil- boete-van-250-euro-voor-het-naroepen-van-vrouwen.dhtml
等,
我需要的物品类别(4斜线,“阿姆斯特丹中央火车站”和“POLITIEK”后,在这种情况下),和将它们附加到列表中。
我与urllib2的工作:
reader=CsvUnicodeReader(open("my.csv","r"))
for row in reader:
url = row[0]
req=urllib2.Request(url)
有没有一种方法来解析URL?
对于它的部分分裂的URL(协议,主机,端口,路径等。)有['urlparse'](https://docs.python.org/2/library/urlparse.html)模块(用于Python 3.x的'urllib.parse')。但它看起来像对路径的特定部分感兴趣,因此您可能还需要使用正则表达式。 – 2014-09-21 21:25:14