我正在使用urllib3
构建网络爬虫。示例代码:Python | Http - 无法获得正确的MIME类型
from urllib3 import PoolManager
pool = PoolManager()
response = pool.request("GET", url)
mime_type = response.getheader("content-type")
我已经在几个环节迷迷糊糊的文档文件如DOCX和EPUB,我从服务器获取MIME类型text/plain
。它是对我很重要,以获得正确的哑剧类型。
例到有问题的网址:
现在越来越文件的MIME类型是从服务器获取它,如果没有可用的试图获得该文件的扩展名的逻辑。
为什么Firefox
不会被这些类型的网址混淆,让用户立即下载文件?它如何知道这个文件不是纯文本?我怎样才能得到正确的mime类型?
你是如何访问'response'中的mime类型的? – lucasnadalutti
我已更新该问题。 –
这可能是解决此问题的方法。首先将响应保存到临时文件中。然后为保存的文件名获取'content-type'。 [链接](http://stackoverflow.com/questions/43580/how-to-find-the-mime-type-of-a-file-in-python) –