仅当它是HTML网页时才下载URL

我想编写一个python脚本，该脚本仅在网页包含HTML时才下载网页。我知道content-type将在header中使用。请建议，因为我无法获得文件下载前获得header的方法。仅当它是HTML网页时才下载URL

@NiklasB。我已经探索了请求对象并尝试了获取函数bu，它首先在文件系统上创建一个文件并返回email.mimetype对象。但我只想下载该文件的内容是HTML – chinmayaposwalia 2012-03-17 13:58:14

看看[这个问题]（http://stackoverflow.com/questions/843392/python-get-http-headers-from-urllib-call） – 2012-03-17 14:12:09

使用http.client向网址发送HEAD请求。这将仅返回资源的标题，然后您可以查看content-type标题并查看它是否text/html。如果是，则向URL发送GET请求以获取主体。

2012-03-17 14:16:03

回答