1
我试图用美丽的汤从rottentomatoes.com刮电影报价。页面源是有趣的,因为报价直接由跨度类“bold quote_actor”继续,但报价本身处于没有类的跨度中,例如, (https://www.rottentomatoes.com/m/happy_gilmore/quotes/): screenshot of web source美丽的汤 - 选择没有类的下一个跨度元素的文本
我想用美丽的汤的find_all来捕获所有的报价,没有演员的名字。我曾尝试没有成功很多事情,比如:
moviequotes = soup(input)
for t in web_soup.findAll('span', {'class':'bold quote_actor'}):
for item in t.parent.next_siblings:
if isinstance(item, Tag):
if 'class' in item.attrs and 'name' in item.attrs['class']:
break
print (item)
我将不胜感激如何浏览这个代码的技巧和定义所产生的纯文本引用到对象我用使用Pandas等。
完美!非常感谢你。我从密切审查你的答案中学到了很多东西。 – user8422605