我试图从本文中提取文章文本(https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture)并排除底部的合法容器。文本部分看起来很容易,但似乎无法摆脱容器。我已将它与法律变量分开以便于使用。如何使用BeautifulSoup(Python)排除元素
这里是我到目前为止的代码:
import requests
from bs4 import BeautifulSoup
base_url = 'https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture'
r = requests.get(base_url)
r_html = r.text
soup = BeautifulSoup(r_html)
legal = soup.find('div',{'class': 'legal-container'})
paragraphs = soup.find_all('p')
for text in paragraphs:
print text.get_text()
我应该如何去了解呢?
而不是排除,你不能定义比所有'p'标签更好的选择吗? –
我试过了,但似乎找不到一个好方法。所有文本,包括合法容器中的文本都有
etc标签。合法的容器特别在
之内,直到
;有没有一种很好的方法来排除那些特别的或更好的定义p标签? –
选择器'div.article-main p'如何?文章中的所有段落 –