我解析与BS4和Python 3.5的网页。 试图只提取从一个div,看起来像这样的用户名(链接文本):从div中提取特定文本与beautifulsoup4
<div class="about"><a href="es_viewprofile.aspx?profile_id=110181766">claudiakenzo</a> 33 Pasar el rato <font color="green">En línea</font></div>
米的目标是让只有div的第一部分,在这种情况下,字符串“claudiakenzo”
这是我想使用的代码:
for link in soup.find_all("div", {'class': 'about'}):
print(username = link.text)
理论上我应该得到我想要的东西,但没有...我得到的输出:
claudiakenzo 33 Pasar el rato En línea
我不想要“33”,“Pasar el rato”或“Enlínea”部分。 我在做什么错,什么是正确的代码来提取我所需要的? 不幸的是,一些用户名还包含数字,因此使用re很复杂......但我觉得必须有比使用re更简单的方法来完成此操作。
PS-如果硒问题更容易解决,我也愿意尝试。 谢谢!