1
我正在使用InitSpider
并在def __init__(self, *a, **kw):
方法中读取自定义json
配置。Scrapy:根据从自定义配置中读取的值覆盖DEPTH_LIMIT变量
该json配置文件包含一个指令,我可以控制爬行深度。我已经可以成功读取该配置文件并提取该值。主要问题是如何告诉scrapy使用这个值。
注意:我不想使用命令行参数,如-s DEPTH_LIMIT=3
,我真的想从我的自定义配置中解析它。
我在哪里保存中间件类,我应该给什么名呢? – cytopia
我解决了上述问题。它现在可以工作,但似乎深度> max_depth的页面仍然被抓取(下载),但没有处理。为了节省时间和带宽,是否也可以不首先下载它们? – cytopia