如何停止Scrapy CrawlSpider并在稍后恢复停用？

我有一个Scrapy CrawlSpider，它有一个非常大的URL爬网列表。我希望能够阻止它，保存当前的状态并稍后恢复，而不必重新开始。有没有在Scrapy框架内完成这项工作的方法？如何停止Scrapy CrawlSpider并在稍后恢复停用？

来源

2011-09-05 Dave Forgac

从Scrapy v。0.16开始现在支持它：http://doc.scrapy.org/en/0.16/topics/jobs.html –

只是有几个月前就ML了一个问题：http://groups.google.com/group/scrapy-users/browse_thread/thread/6a8df07daff723fc?pli=1

报价巴勃罗：

我们不仅考虑它，但也努力。有目前两个我认为MQ添加此功能在情况下，任何人想要尝试的早期预览（他们需要顺序应用）工作的补丁： http://hg.scrapy.org/users/pablo/mq/file/tip/scheduler_single_spider .... http://hg.scrapy.org/users/pablo/mq/file/tip/persistent_scheduler.patch 运行蜘蛛像以前一样（无持久性）：
scrapy crawl thespider 
要运行一个蜘蛛在DIR存储调度+ dupefilter状态：
scrapy crawl thespider --set SCHEDULER_DIR=run1 
爬行过程中，你可以打^ C取消抓取并恢复它后来有：
scrapy crawl thespider --set SCHEDULER_DIR=run1 
的SCHEDULER_DIR设置名称，势必最终发布前改变，但这个想法是一样的 - 你传递一个目录其中坚持的状态。

来源

2011-09-05 20:15:29 naeg

您必须使用JOBDIR而不是SCHEDULER_DIR（请参阅下面的niko_gramophon的帖子）。 – Naijaba

只是想分享该功能包含在最新的scrapy版本中，但参数名称已更改。你应该使用这样的：

scrapy爬行thespider --set JOBDIR = RUN1

来源

2013-04-12 09:55:44

@niko_gramphon，你知道这是否重申dupefilter状态？如果我们正在写一个csv文件并且希望恢复使用同一个文件，我们是否还需要添加服装代码？谢谢。 – x89a10

Scrapy现在已经记录在这里这在其网站上的工作特点：

这里是实际的命令：

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

来源

2015-04-22 21:20:13

如何停止Scrapy CrawlSpider并在稍后恢复停用？

回答

相关问题