2016-11-15 64 views
0

我尝试用beatifulSoup解决问题。 我有内容BeatifulSoup以“•”的形式回应内容

content =""" 
<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/"> 
</div> 
""" 

我想拥有的是“基准”字段中,但我不能得到的是工作。 我想:

soup = BeautifulSoup(content, "html.parser") 
info = {} 
for details in soup.find_all("div", {"class" : "topinfo title"}): 
    info[details.text.strip(':')] = details.next_sibling.strip('\n') 

,但我不能得到它的工作...

回答

0

我不知道你的需要,但这也许工作:

from bs4 import BeautifulSoup 
doc ='''<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/"> 
</div>''' 
soup = BeautifulSoup(doc, 'lxml') 
soup.get_text() 

出来:

'Kategorie: Serie • Datum: 15.11.16 • IMDB: \n' 

如果你明白了这一点,你可以随心所欲地玩它。