2017-07-17 35 views
0
[<div class="nav-wrapper"> 
<p class="navigation-links"> 
<span class="page-numbers current">1</span> 
<a class="page-numbers" href="http://www.example.com/2/">2</a> 
<a class="page-numbers" href="http://www.example.com/3/">3</a> 
<span class="page-numbers dots">…</span> 
<a class="page-numbers" href="http://www.example.com/6/">6</a> 
<a class="next page-numbers" href="http://www.example.com/2/">Next →</a> </p> 
</div>] 

另外,是否有一种简单的方法来提取页面导航栏中的最大页码数,假设'span class'之后的条目是上限。Python 3.6:美丽的肥皂 - 如何提取div容器中的所有文本?

在此先感谢!

+1

你到目前为止尝试过什么? – Adonis

+0

container = page_soup.findAll(“div”,{“class”:“nav-wrapper”}) container.text 它给出错误 – Karan

回答

1
html = '''<div class="nav-wrapper"> 
      <p class="navigation-links"> 
      <span class="page-numbers current">1</span> 
      <a class="page-numbers" href="http://www.example.com/2/">2</a> 
      <a class="page-numbers" href="http://www.example.com/3/">3</a> 
      <span class="page-numbers dots">…</span> 
      <a class="page-numbers" href="http://www.example.com/6/">6</a> 
      <a class="next page-numbers" href="http://www.example.com/2/">Next →</a> </p> 
      </div>''' 
bs = BeautifulSoup(html, "html.parser") 
max_page = bs.find('span', {'class':'page-numbers dots'}).findNext().text 
+0

谢谢! 你能解释为什么bs被分配两次吗? &他们是做一个更短的方法吗? – Karan

+0

对不起,这是错误的。编辑。 – Viach

+0

... 不存在时,可以做些什么?如何提取值呢? 我收到此错误 bs.find( '跨',{ '类': '页面数点'})FindNext中()文本 AttributeError的: 'NoneType' 对象有没有属性 'FindNext中' – Karan