0
我正在使用Python和lxml库来解析保存的网页。获取保存的网页的原始URL
保存的网页的docinfo显示保存的网页的磁盘位置。
storedHtmlDoc.docinfo.URL
有什么办法从保存的页面中提取原始URl吗?
我正在使用Python和lxml库来解析保存的网页。获取保存的网页的原始URL
保存的网页的docinfo显示保存的网页的磁盘位置。
storedHtmlDoc.docinfo.URL
有什么办法从保存的页面中提取原始URl吗?
如果您没有在自己的地方存储下载页面的URL,它不适用于您。
如果您可以控制下载过程,可以将下载的页面的URL放在页面的META标签中。 OK。
OK。我有那个自由。我使用'urllib.request'来获取网页,并使用lxml来解析(也许是操纵)它。你如何建议我将META标签添加到抓取的网页? – 2013-04-24 08:33:33
我知道使用正则表达式的HTML并不是一个好主意,但是你可以找到开头'
'标签并且在它之后插入''。我不知道用于存储原始URL的标准META标签,但在您的情况下,使用非标准标签不应该破坏任何内容。 – warvariuc 2013-04-24 08:40:40另一个更简单的方法是在文件末尾添加注释,如:<! - 从http:// ******* - 下载。但是,我不确定你可以使用lxml获取URL。 – warvariuc 2013-04-24 09:02:41