0
我想编写一个python脚本,该脚本仅在网页包含HTML时才下载网页。我知道content-type
将在header
中使用。请建议,因为我无法获得文件下载前获得header
的方法。仅当它是HTML网页时才下载URL
我想编写一个python脚本,该脚本仅在网页包含HTML时才下载网页。我知道content-type
将在header
中使用。请建议,因为我无法获得文件下载前获得header
的方法。仅当它是HTML网页时才下载URL
使用http.client
向网址发送HEAD
请求。这将仅返回资源的标题,然后您可以查看content-type
标题并查看它是否text/html
。如果是,则向URL发送GET
请求以获取主体。
@NiklasB。我已经探索了请求对象并尝试了获取函数bu,它首先在文件系统上创建一个文件并返回email.mimetype对象。但我只想下载该文件的内容是HTML – chinmayaposwalia 2012-03-17 13:58:14
看看[这个问题](http://stackoverflow.com/questions/843392/python-get-http-headers-from-urllib-call) – 2012-03-17 14:12:09