0

我想编写一个python脚本,该脚本仅在网页包含HTML时才下载网页。我知道content-type将在header中使用。请建议,因为我无法获得文件下载前获得header的方法。仅当它是HTML网页时才下载URL

+0

@NiklasB。我已经探索了请求对象并尝试了获取函数bu,它首先在文件系统上创建一个文件并返回email.mimetype对象。但我只想下载该文件的内容是HTML – chinmayaposwalia 2012-03-17 13:58:14

+0

看看[这个问题](http://stackoverflow.com/questions/843392/python-get-http-headers-from-urllib-call) – 2012-03-17 14:12:09

回答

2

使用http.client向网址发送HEAD请求。这将仅返回资源的标题,然后您可以查看content-type标题并查看它是否text/html。如果是,则向URL发送GET请求以获取主体。

相关问题