我有一个HTML文件,该文件类似于这样的东西:如何使用beautifulsoup提取嵌套标记结构中的属性值?
<html>
...
<li class="not a user"> </li>
<li class="user">
<a href="abs" ...> </a>
</li>
<li class="user">
<a href="bss" ...> </a>
</li>
...
</html>
鉴于上述输入我想带class =“用户”解析里的标签,并获得HREF的作为输出的值
。这可能在python中使用beautifulsoup?
我的解决办法是:
data="the above html code snippet"
soup=BeautifulSoup(data)
listset=soup("li","user")
for list in listset:
attrib_value=[a['href'] for a in list.findAll('a',{'href':True})]
很显然,我的地方,它只是列出了最近锚标记的href属性值有一个错误。
你为什么要在每个循环中重复设置attrib_value?每次迭代你都在做什么? – 2012-07-17 00:33:18
问题是当我想要一个属性值列表时,我只是在每次迭代时重新分配! :P – abhixec 2012-07-17 19:19:22