获取保存的网页的原始URL

我正在使用Python和lxml库来解析保存的网页。获取保存的网页的原始URL

保存的网页的docinfo显示保存的网页的磁盘位置。

storedHtmlDoc.docinfo.URL

有什么办法从保存的页面中提取原始URl吗？

如果您没有在自己的地方存储下载页面的URL，它不适用于您。

如果您可以控制下载过程，可以将下载的页面的URL放在页面的META标签中。 OK。

2013-04-24 08:20:28 warvariuc

OK。我有那个自由。我使用'urllib.request'来获取网页，并使用lxml来解析（也许是操纵）它。你如何建议我将META标签添加到抓取的网页？ – 2013-04-24 08:33:33

我知道使用正则表达式的HTML并不是一个好主意，但是你可以找到开头''标签并且在它之后插入''。我不知道用于存储原始URL的标准META标签，但在您的情况下，使用非标准标签不应该破坏任何内容。 – warvariuc 2013-04-24 08:40:40

另一个更简单的方法是在文件末尾添加注释，如：<！ - 从http：// ******* - 下载。但是，我不确定你可以使用lxml获取URL。 – warvariuc 2013-04-24 09:02:41

回答