我有一个现有的脚本(main.py),需要数据被刮。 我开始了一个scrapy项目来检索这些数据。现在,有没有办法main.py可以从scrapy中检索数据作为Item生成器,而不是使用Item流水线来持久化数据? 像这样的东西真的很方便,但是我不知道如何去做,如果可行的话。 for item in scrapy.process():
我发现了一个潜在的解决方案:https://tryolab
我是能够爬过网络使用保存在内存中抓取的网页下面scrapy脚本 import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from lxml import html
from scrapy.contrib.spiders import