2013-03-24 72 views
2

我开始用Python进行编程,并且已经阅读了几篇文章,他们说我应该使用HTML解析器从文本中获取URL而不是re。如何在Python中使用“HTML书写”URL解析HTML代码?

我有我从page.read()urlliburlopen得到的源代码。

现在,我的问题是,解析器是从文本中删除url部分。

此外,如果我已经正确读取,var = page.read(),var被存储为一个字符串?

如何告诉它给我2个“标签”之间的文本?该URL总是在flv=;之间,因此它不以href开始,这是解析器查找的内容,也不包含http://

我已经阅读了很多文章,但似乎他们都在代码中寻找``href。

我完全错了吗?

谢谢!

+0

是您的请求返回HTML?如果'flv ='是一个html标签的属性,那么你应该可以很容易地使用一个解析来检索值 – dm03514 2013-03-24 20:06:50

+0

该请求正在返回html。代码中的URL是http%3A%3A ...我会尝试更多地查看flv =,谢谢! – user111201 2013-03-24 20:18:34

+1

给我们一个你正在处理的html代码片段,并希望提取预期的url。 – 2013-03-24 20:39:14

回答

0

你可以考虑实现你自己的搜索/抓取。在psuedocode中,它看起来有点像这样:

find location of 'flv=' in HTML = location_start 
find location of ';' in HTML = location_end 
grab everything in between: HTML[location_start : location_end] 

你应该能够在python中实现它。

祝你好运!