2017-02-25 81 views
0

我有类似下面的代码,重复X次Python的BeautifulSoup CSS选择器

<div class="ABC">  
    <div class="DEF"> 
     <span class="GHI">{TEXT 1}</span> 
     <a href="#"><span class="{CLASS}">{TEXT 2}</span> {TEXT 3}</a> 
    </div> 
    <div class="DEF"> 
     <span class="GHI">{TEXT 1}</span> 
     <a href="#"><span class="{CLASS}">{TEXT 2}</span> {TEXT 3}</a> 
    </div> 
    ... 
</div> 
<div class="XYZ">  
    <div class="DEF"> 
     <span class="GHI">{TEXT 1}</span> 
     <a href="#"><span class="{CLASS}">{TEXT 2}</span> {TEXT 3}</a> 
    </div> 
    <div class="DEF"> 
     <span class="GHI">{TEXT 1}</span> 
     <a href="#"><span class="{CLASS}">{TEXT 2}</span> {TEXT 3}</a> 
    </div> 
    ... 
</div> 

我怎么会提取每个{TEXT 3}只有在父类是ABC?我有,我美化它,并得到行号,但不知道是否有一个更合适的方法

感谢

回答

0

像这样的解决方案?

abc = soup.find('div', class_='ABC').find_all("div") 
for div in abc: 
    t3 = div.find('a').contents[1].strip() 
    print (t3) 

输出:>>>{TEXT_3} * 2

+0

我需要{TEXT 3} – pee2pee

+0

对不起 - 固定:) – Zroq