如何刮取IMDB评论

我想从数据收集开始进行情感分析的端到端项目。对于这一点，我开始与IMDB的评论，从这个页面，特别是：如何刮取IMDB评论

http://www.imdb.com/title/tt2137109/reviews?start=0

我将使用scrapy这一点，从下面的代码，我可以得到的评价和标题：

import requests 
from scrapy.http import TextResponse 
import urlparse 
from urlparse import urljoin 

base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0" 
r = requests.get(base_url) 

response = TextResponse(r.url, body=r.text, encoding='utf-8') 

title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0] 

reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract()

我遇到的问题是如何抓取网站以获取随机样本？我正在寻找10k标题的样本，我计划在5-10天内获得这些标题，以避免不必要的击中网站并被放置。

有一些起点像顶部250 list：但我正在寻找一个随机样本。

来源

2017-06-16 Luis Ramon Ramirez Rodriguez

1）为什么你使用请求，如果你使用scrapy？

2）提取链接并使用随机样本的随机函数

来源

2017-06-16 06:39:10 Verz1Lka

1）我使用请求，因为我正在尝试xpaths在笔记本上。从哪里可以随机抽样？我没有清单。 –

如何刮取IMDB评论

回答

相关问题