0
我想从数据收集开始进行情感分析的端到端项目。对于这一点,我开始与IMDB的评论,从这个页面,特别是:如何刮取IMDB评论
http://www.imdb.com/title/tt2137109/reviews?start=0
我将使用scrapy这一点,从下面的代码,我可以得到的评价和标题:
import requests
from scrapy.http import TextResponse
import urlparse
from urlparse import urljoin
base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0"
r = requests.get(base_url)
response = TextResponse(r.url, body=r.text, encoding='utf-8')
title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0]
reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract()
我遇到的问题是如何抓取网站以获取随机样本? 我正在寻找10k标题的样本,我计划在5-10天内获得这些标题,以避免不必要的击中网站并被放置。
有一些起点像顶部250 list: 但我正在寻找一个随机样本。
1)我使用请求,因为我正在尝试xpaths在笔记本上。从哪里可以随机抽样?我没有清单。 –