2016-03-21 10 views
1

这里提取后的文本是HTML文件,我要处理:的Python:前<br/>

<span class="pl">Countries:</span> USA <br/> 
<span class="pl">Language:</span> English <br/> 

这里是我的Python代码:

from bs4 import BeautifulSoup 

record=[] 
soup=BeautifulSoup(html) 
spans=soup.find_all('span') 
for span in spans: 
    record.append(span.text) 

我最后得到的是:

Countries: Language: 

结果错过了一些重要的信息:“USA”和“English” 如何获取文本?

回答

2

使用.next_sibling符号:

soup.find("span", text="Countries:").next_sibling 
soup.find("span", text="Language:").next_sibling 
+0

真棒!谢谢!! – KengoTokukawa