1
我试图抓取广告的网页。广告缩略图显示在分页的第一页上。点击每个缩略图会显示特定广告的详细信息,其中包含广告的发布日期。现在我只想抓取最后一天发布的广告。Scrapy获取回调数据
我的Scrapy蜘蛛具有以下结构:
#opens the homepage
def start_requests(self):
url = 'url_to_page'
yield scrapy.Request(url=url, callback=self.parse)
#parse the page for ad links and follow each of them
def parse(self, response):
#get all links from current page; not shown here
for link in ad_links:
request = scrapy.Request(link, callback=self.parse_single_ad)
#follow the next page, only if today's date > posting date <---
def parse_single_ad(self, response):
#get the posting date; not shown here
return item
的问题是,我只能访问到parse_single_ad()
过帐日期,但我具有基于广告的发布日期停止分页中parse()
。有没有办法从parse()
访问parse_single_ad()
中检索到的物品?更一般地说,我可以从其父函数访问回调的数据吗?
这只会关闭递归的当前分支吗?如果我有许多网站,首先要做什么? – Botond
它会关闭Spider的执行...如果你有很多'start_urls',那么你将会有问题......因为'CloseSpider'只是QUITS蜘蛛。 – Umair
什么是你在刮的网站?我有一个想法,如果你在'start_urls'中的每个URL都有一些特定的字符串,那么我们可以忽略'process_request'方法中的特定URL。请分享你正在抓取的网站,我会帮你。 – Umair