2017-08-17 63 views
0

网页阅读更多我想刮从网站的评论,我不能够凑具有“更多”选项评论。 我只能读取数据,直到阅读更多。 我正在使用BeautifulSoup。 任何帮助表示赞赏。如何刮评论与使用BeautifulSoup

回答

0

你将不得不使用硒给出的点击选项,这将让你找到尽快将更多的标签或类别,点击它,因为它出现在你将不得不再次点击它..而当它不显示出来,你将不得不放弃你所需要的内容,

+0

请问您能解释什么是bs4中的点击选项以及如何使用它? – user5444075

+0

@ user5444075我的错误我在谈论硒... bs4不支持点击。你应该ATLEAST发布您的代码,或者您正试图废除,从而使他人能够帮助你 – Shaamuji

+0

我试图得到该链接的网站,“阅读更多”指着我得到了一个标签与onclick属性。我不能用它来扩大评论吗? – user5444075

0

这里是你如何能得到的所有评论全文演示。运行它并获得结果。执行后稍等片刻。无需点击任何链接即可这样做。

import requests ; from bs4 import BeautifulSoup 

soup = BeautifulSoup(requests.get("http://www.mouthshut.com/product-reviews/Lakeside-Chalet-Mumbai-reviews-925017044").text, "html.parser") 
for title in soup.select("a[id^=ctl00_ctl00_ContentPlaceHolderFooter_ContentPlaceHolderBody_rptreviews_]"): 
    items = title.get('href') 
    if items: 
     broth = BeautifulSoup(requests.get(items).text, "html.parser") 
     for item in broth.select("div.user-review p.lnhgt"): 
      print(item.text) 
+0

好了,所以我想这个代码和它的工作,现在从我的理解,你第一次请求的网站,然后而是采用“阅读更多”搜索审查的标题的链接,要求通过获取其“href”属性的链接,将它储存在肉汤中,最后搜索评论并循环浏览其段落(如果我错了,纠正我)。有两件事打扰了我,一次是在打印标题时,我得到了#排除的完整链接(为什么是这样?)以及你从哪里得到了“div.user-review p”(我知道它在我们访问的链接中,但是) – user5444075

+0

检查下面页面的元素,你会发现[“div.user-review p”] http://www.mouthshut.com/review/Lakeside-Chalet-Mumbai-review-mlmqulpsq btw ,我使用从“和平,安静,真实的视角!”中提取的链接提出第二次请求。 – SIM

+0

此外,我试着你的代码,并找不到为什么审查打印2次。我也检查了页面,没有发现任何冗余。你能帮我解决这个问题吗? – user5444075