我想从这个页面读取信息的实际的HTML:http://movie.douban.com/subject/20645098/commentsPython中的urlopen和httplib的都是无法返回页面
,并使用以下方法来找到所有评论的项目。
comment_item = soup.find_all("div", {"id":"comment"})
但是,我无法得到任何返回的内容,我意识到我的脚本正在阅读的html与实际页面上的html不同。以下是我所尝试过的。
我第一次尝试使用BeautifulSoup做到以下几点:
comment_html = urlopen(section_url).read()
soup = BeautifulSoup(comment_html, "html.parser")
这汤的回报是不一样的实际HTML代码的HTML。然后我尝试httplib2请求如下:
h = httplib2.Http()
resp, content = h.request(section_url, "GET")
soup = BeautifulSoup(content, "html.parser")
而且它仍然是一样的。 :(
你应该添加您是从浏览器发送的所有HTTP请求头在Python您的HTTP请求..这应该解决问题 –
你认为什么是“实际的html”?如果网站让你变得沉重然后DOM可以完全不同于通过简单的GET请求获得的基本HTML。 – rkrzr
@rkrzr我正在寻找用户在网页上看到的主要内容。例如,我无法在返回的html中找到带注释的div作为id。 – YAL