2013-04-24 73 views
0

我正在使用Python和lxml库来解析保存的网页。获取保存的网页的原始URL

保存的网页的docinfo显示保存的网页的磁盘位置。

storedHtmlDoc.docinfo.URL 

有什么办法从保存的页面中提取原始URl吗?

回答

1

如果您没有在自己的地方存储下载页面的URL,它不适用于您。

如果您可以控制下载过程,可以将下载的页面的URL放在页面的META标签中。 OK。

+0

OK。我有那个自由。我使用'urllib.request'来获取网页,并使用lxml来解析(也许是操纵)它。你如何建议我将META标签添加到抓取的网页? – 2013-04-24 08:33:33

+0

我知道使用正则表达式的HTML并不是一个好主意,但是你可以找到开头''标签并且在它之后插入''。我不知道用于存储原始URL的标准META标签,但在您的情况下,使用非标准标签不应该破坏任何内容。 – warvariuc 2013-04-24 08:40:40

+0

另一个更简单的方法是在文件末尾添加注释,如:<! - 从http:// ******* - 下载。但是,我不确定你可以使用lxml获取URL。 – warvariuc 2013-04-24 09:02:41