如何刮评论与使用BeautifulSoup

网页阅读更多我想刮从网站的评论，我不能够凑具有“更多”选项评论。我只能读取数据，直到阅读更多。我正在使用BeautifulSoup。任何帮助表示赞赏。如何刮评论与使用BeautifulSoup

来源

2017-08-17 user5444075

你将不得不使用硒给出的点击选项，这将让你找到尽快将更多的标签或类别，点击它，因为它出现在你将不得不再次点击它..而当它不显示出来，你将不得不放弃你所需要的内容，

来源

2017-08-17 13:00:43 Shaamuji

请问您能解释什么是bs4中的点击选项以及如何使用它？ – user5444075

@ user5444075我的错误我在谈论硒... bs4不支持点击。你应该ATLEAST发布您的代码，或者您正试图废除，从而使他人能够帮助你 – Shaamuji

我试图得到该链接的网站，“阅读更多”指着我得到了一个标签与onclick属性。我不能用它来扩大评论吗？ – user5444075

这里是你如何能得到的所有评论全文演示。运行它并获得结果。执行后稍等片刻。无需点击任何链接即可这样做。

import requests ; from bs4 import BeautifulSoup 

soup = BeautifulSoup(requests.get("http://www.mouthshut.com/product-reviews/Lakeside-Chalet-Mumbai-reviews-925017044").text, "html.parser") 
for title in soup.select("a[id^=ctl00_ctl00_ContentPlaceHolderFooter_ContentPlaceHolderBody_rptreviews_]"): 
    items = title.get('href') 
    if items: 
     broth = BeautifulSoup(requests.get(items).text, "html.parser") 
     for item in broth.select("div.user-review p.lnhgt"): 
      print(item.text)

来源

2017-08-19 21:42:00 SIM

好了，所以我想这个代码和它的工作，现在从我的理解，你第一次请求的网站，然后而是采用“阅读更多”搜索审查的标题的链接，要求通过获取其“href”属性的链接，将它储存在肉汤中，最后搜索评论并循环浏览其段落（如果我错了，纠正我）。有两件事打扰了我，一次是在打印标题时，我得到了＃排除的完整链接（为什么是这样？）以及你从哪里得到了“div.user-review p”（我知道它在我们访问的链接中，但是） – user5444075

检查下面页面的元素，你会发现[“div.user-review p”] http://www.mouthshut.com/review/Lakeside-Chalet-Mumbai-review-mlmqulpsq btw ，我使用从“和平，安静，真实的视角！”中提取的链接提出第二次请求。 – SIM

此外，我试着你的代码，并找不到为什么审查打印2次。我也检查了页面，没有发现任何冗余。你能帮我解决这个问题吗？ – user5444075

如何刮评论与使用BeautifulSoup

回答

相关问题