我正在制作一个解析html并从中获取图片的应用程序。使用Beautiful Soup进行解析非常简单,下载html和图像也可以使用urllib2。Python urlparse:小问题
我确实有一个urlparse的问题,使绝对路径脱离相对的路径。这个问题最好用一个例子来解释:
>>> import urlparse
>>> urlparse.urljoin("http://www.example.com/", "../test.png")
'http://www.example.com/../test.png'
正如你所看到的,urlparse不会带走../了。这给出了一个问题,当我尝试下载图片:
HTTPError: HTTP Error 400: Bad Request
有没有办法解决urllib中这个问题呢?
的相对HREF =“../ test.png”的作品,但不href =“http://www.example.com/../test.png”? – 2010-11-06 17:46:53