2011-09-05 198 views

回答

6

只是有几个月前就ML了一个问题:http://groups.google.com/group/scrapy-users/browse_thread/thread/6a8df07daff723fc?pli=1

报价巴勃罗:

我们不仅考虑它,但也努力。有 目前两个我认为MQ添加此功能在 情况下,任何人想要尝试的早期预览(他们需要 顺序应用)工作的补丁: http://hg.scrapy.org/users/pablo/mq/file/tip/scheduler_single_spider .... http://hg.scrapy.org/users/pablo/mq/file/tip/persistent_scheduler.patch 运行蜘蛛像以前一样(无持久性):

scrapy crawl thespider 

要运行一个蜘蛛在DIR存储调度+ dupefilter状态:

scrapy crawl thespider --set SCHEDULER_DIR=run1 

爬行过程中,你可以打^ C取消抓取并恢复它 后来有:

scrapy crawl thespider --set SCHEDULER_DIR=run1 

的SCHEDULER_DIR设置名称,势必最终 发布前改变,但这个想法是一样的 - 你传递一个目录 其中坚持的状态。

+0

您必须使用JOBDIR而不是SCHEDULER_DIR(请参阅下面的niko_gramophon的帖子)。 – Naijaba

8

只是想分享该功能包含在最新的scrapy版本中,但参数名称已更改。你应该使用这样的:

scrapy爬行thespider --set JOBDIR = RUN1

更多的信息在这里http://doc.scrapy.org/en/latest/topics/jobs.html#job-directory

+2

@niko_gramphon,你知道这是否重申dupefilter状态?如果我们正在写一个csv文件并且希望恢复使用同一个文件,我们是否还需要添加服装代码?谢谢。 – x89a10

2

Scrapy现在已经记录在这里这在其网站上的工作特点:

这里是实际的命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1