scrapy-pipeline

    0热度

    1回答

    我想访问变量self.cursor以利用活动的postgreSQL连接,但我无法弄清楚如何访问scrapy的管道类实例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS

    1热度

    1回答

    我有以下Scrapy解析方法: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

    0热度

    1回答

    我正在使用Scrapy-Splash请求获取页面的渲染截图,但我也需要该页面上的图像。我使用流水线来下载这些图像,但我在想 - 这是不是对同一图像发出两个请求?一旦Splash呈现页面,并且一次发送下载请求时。有没有一种方法可以让Scrapy-Splash请求返回图像?

    1热度

    1回答

    我目前正在最后确定一个Scrapy项目,但我有一个相当长的pipelines.py文件。 我注意到,在我的settings.py的管道可以显示如下(下调): ITEM_PIPELINES = { 'proj.pipelines.MutatorPipeline': 200, 'proj.pipelines.CalculatorPipeline': 300, 'proj.

    0热度

    1回答

    合并输出我有一个Scrapy输出是这样的: [{'gender': 'women', 'name': 'NEW IN: CLOTHING', 'products': [{'name': 'Free People Cocoon Multi Way Neck Top', 'price': {'currency': 'GBP', 'outlet'

    0热度

    1回答

    重要提示:所有可用在计算器上的那一刻答案是Scrapy的早期版本和不scrapy的最新版本1.4的工作 完全陌生的scrapy和蟒蛇,我试图刮一些页面,并下载图像。正在下载图片但它们仍然具有原始的SHA-1名称作为文件名。 我不知道如何重命名文件,他们实际上都有SHA-1文件名。 试图将它们重命名为“测试”,并且在运行scrapy crawl rambopics以及url数据时,输出中出现“测试”

    1热度

    2回答

    使用我很新的Scrapy,想尝试以下操作: 从网页中提取一些值,将其存储在一个变量,在我的主要脚本中使用它。 所以我也跟着他们的教程,并改变了代码为我的目的: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

    0热度

    2回答

    我有以下设置(码头工人): 芹菜挂瓶安装运行于Scrapy蜘蛛 瓶设置(显然) 瓶设置获取请求Scrapy - >启动工人做一些工作 现在我想更新芹菜工人的进展原始瓶设置。 但是现在没有办法在刮刀内部使用celery.update_state(),因为它无法访问原始任务(虽然它在芹菜任务中运行)。 顺便说一句:我错过了关于scrapy结构的一些事情吗?这似乎是合理的,我可以分配的__init__内

    0热度

    1回答

    我试图从网站(IMDB)使用'scrapy'包得到一些数据。 如果在div类中有image_URL,那么我可以使用电影海报来抓取数据。但是,如果没有,我的代码无法正常工作。它跳过了一些与图像相关的数据。 我想修复它像没有image_URL然后忘了图像,只是抓取数据。 我该如何解决除零件之外的问题? 高清解析(个体经营,响应): //some other lines try: pos

    0热度

    2回答

    我正在尝试使用Scrapy为大学项目构建一个小应用程序。 蜘蛛抓取的项目,但我的管道没有插入数据到MySQL数据库。为了测试管道是否不工作或pymysl执行不工作我写了一个测试脚本: 代码开始 #!/usr/bin/python3 import pymysql str1 = "hey" str2 = "there" str3 = "little" str4 = "script"