2011-03-04 108 views
1

内容我有这个网站:获取标签的美丽汤

<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a> 

我的程序读取一个HTML文件,上面是该文件的块。我如何在Python中使用BeautifulSoup提取“Miss Black OCU 2011”。

+2

不要使用挥发性的服务,如引擎收录! – 2011-03-04 04:56:34

+1

什么是您的搜索的特定标准? – 2011-03-04 04:58:00

+0

您需要将代码从pastebin移动到您的问题。你的问题将存在多年,但在30天内它将缺乏所有背景。 – 2011-03-04 05:33:37

回答

3

这里有一个快速的解决办法:

>>> from BeautifulSoup import BeautifulSoup as BS 
>>> soup = BS('<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>') 
>>> tags = soup.findAll('a', href=True) 
>>> for tag in tags: tag.renderContents() 
'Miss Black OCU 2011' 
>>>