当我试图使用网址来抓取网页时,我发现一些元素只存在于某些页面中,而其他元素没有。让我们的代码,例如Python:并非每个网页都有一定的元素
代码:
for urls in article_url_set:
re=requests.get(urls)
soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser")
title_tag = soup.select_one('.page_article_title')
if title_tag=True:
print(title_tag.text)
else:
#do something
如果title_tag退出,我想打印出来,如果不是的话,就跳过他们。
另一件事是,我需要在数据中保存其他元素和title.tag.text。
data={
"Title":title_tag.text,
"Registration":fruit_tag.text,
"Keywords":list2
}
这将有一个错误的原因不是所有的文章标题有,我应该怎么办跳过他们,当我尝试保存? 'NoneType'对象没有属性'text'
编辑:我决定不跳过它们并将它们保留为空或无。
哦,谢谢你!我昨天实际上已经整理出来了。真的很感谢你的帮助! – Makiyo