所以问题是我有一个蜘蛛爬过一个网站,刮了一堆产品信息...然后我想有另一个产品列表首先建立链接,并将其用于检查目的。Scrapy有一个蜘蛛使用另一个嵌入的属性
我意识到我可以在一个蜘蛛中完成这一切,但蜘蛛已经非常大(是25个不同域的通用蜘蛛),并希望保持这个尽可能分离。目前我创建这个主蜘蛛的情况下,像如下:
def run_spiders(*urls, ajax=False):
process = CrawlerProcess(get_project_settings())
for url in urls:
process.crawl(MasterSpider, start_page = url, ajax_rendered = ajax)
process.start()
理想的情况下如何做到这一点的工作就像是在下面看到的东西:
- Scrapy run multiple spiders from a main spider?
- Is it possible to run another spider from Scrapy spider?
我尝试在MasterSpider的closed_handler内产生另一个爬虫程序,但反应堆已经运行得如此清晰这不会起作用。有任何想法吗?
请注意,无论何时我尝试切换到爬虫跑步者,即使我按照文档中的确切内容/问题行事,它也不会完全正常工作。我在考虑使用from_crawler可能是我的方式,但我不完全确定