2017-06-16 88 views
0

我想从数据收集开始进行情感分析的端到端项目。对于这一点,我开始与IMDB的评论,从这个页面,特别是:如何刮取IMDB评论

http://www.imdb.com/title/tt2137109/reviews?start=0

我将使用scrapy这一点,从下面的代码,我可以得到的评价和标题:

import requests 
from scrapy.http import TextResponse 
import urlparse 
from urlparse import urljoin 

base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0" 
r = requests.get(base_url) 

response = TextResponse(r.url, body=r.text, encoding='utf-8') 

title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0] 

reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract() 

我遇到的问题是如何抓取网站以获取随机样本? 我正在寻找10k标题的样本,我计划在5-10天内获得这些标题,以避免不必要的击中网站并被放置。

有一些起点像顶部250 list: 但我正在寻找一个随机样本。

回答

1

1)为什么你使用请求,如果你使用scrapy?

2)提取链接并使用随机样本的随机函数

+0

1)我使用请求,因为我正在尝试xpaths在笔记本上。从哪里可以随机抽样?我没有清单。 –