如何在Python中使用“HTML书写”URL解析HTML代码？

我开始用Python进行编程，并且已经阅读了几篇文章，他们说我应该使用HTML解析器从文本中获取URL而不是re。如何在Python中使用“HTML书写”URL解析HTML代码？

我有我从page.read()与urllib和urlopen得到的源代码。

现在，我的问题是，解析器是从文本中删除url部分。

此外，如果我已经正确读取，var = page.read(),var被存储为一个字符串？

如何告诉它给我2个“标签”之间的文本？该URL总是在flv=和;之间，因此它不以href开始，这是解析器查找的内容，也不包含http://。

我已经阅读了很多文章，但似乎他们都在代码中寻找``href。

我完全错了吗？

谢谢！

来源

2013-03-24 user111201

是您的请求返回HTML？如果'flv ='是一个html标签的属性，那么你应该可以很容易地使用一个解析来检索值 – dm03514 2013-03-24 20:06:50

该请求正在返回html。代码中的URL是http％3A％3A ...我会尝试更多地查看flv =，谢谢！ – user111201 2013-03-24 20:18:34

给我们一个你正在处理的html代码片段，并希望提取预期的url。 – 2013-03-24 20:39:14

你可以考虑实现你自己的搜索/抓取。在psuedocode中，它看起来有点像这样：

find location of 'flv=' in HTML = location_start 
find location of ';' in HTML = location_end 
grab everything in between: HTML[location_start : location_end]

你应该能够在python中实现它。

祝你好运！

来源

2013-03-24 21:07:22

如何在Python中使用“HTML书写”URL解析HTML代码？

回答

相关问题