2
我开始用Python进行编程,并且已经阅读了几篇文章,他们说我应该使用HTML解析器从文本中获取URL而不是re。如何在Python中使用“HTML书写”URL解析HTML代码?
我有我从page.read()
与urllib
和urlopen
得到的源代码。
现在,我的问题是,解析器是从文本中删除url部分。
此外,如果我已经正确读取,var = page.read()
,var
被存储为一个字符串?
如何告诉它给我2个“标签”之间的文本?该URL总是在flv=
和;
之间,因此它不以href
开始,这是解析器查找的内容,也不包含http://
。
我已经阅读了很多文章,但似乎他们都在代码中寻找``href。
我完全错了吗?
谢谢!
是您的请求返回HTML?如果'flv ='是一个html标签的属性,那么你应该可以很容易地使用一个解析来检索值 – dm03514 2013-03-24 20:06:50
该请求正在返回html。代码中的URL是http%3A%3A ...我会尝试更多地查看flv =,谢谢! – user111201 2013-03-24 20:18:34
给我们一个你正在处理的html代码片段,并希望提取预期的url。 – 2013-03-24 20:39:14