scrapy-pipeline

0热度

1回答

我遇到了需要抓取和抓取Scrapy的Scrapy。但根据应用需求，我决定不采用单片方式。一切都应该基于服务。所以我决定设计两项服务。获取所有网址和html。在s3上传。 html的废料项目为什么？很简单，今天我决定取消10件物品，明天我要取消20件（应用要求）。在这种情况下，我不想再次抓取url和html，因为html会相同（我只抓取只添加评论的博客站点，而且每个url的内容保持不变）。第一

0热度

1回答

Scrapy图像管道不会下载图像

我试图通过使用Scrapy Framework和djano-item从网页设置图像下载。我想我已经在doc 所做的一切，像但调用scrapy爬行后，我日志看起来像这样： Scrapy log 我找不到有什么地方出了错，但图片字段为空和目录做的任何信息不包含任何图像。这是我的模型 class Event(models.Model): title = models.CharField(ma

0热度

2回答

使用scrapy作为一个项目发生器

我有一个现有的脚本（main.py），需要数据被刮。我开始了一个scrapy项目来检索这些数据。现在，有没有办法main.py可以从scrapy中检索数据作为Item生成器，而不是使用Item流水线来持久化数据？像这样的东西真的很方便，但是我不知道如何去做，如果可行的话。 for item in scrapy.process(): 我发现了一个潜在的解决方案：https://tryolab

1热度

1回答

Scrapy：如何清理响应？

这是我的代码片段。我正在尝试使用Scrapy刮取网站，然后将数据存储在Elasticsearch中以进行索引。 def parse(self, response): for news in response.xpath('head'): yield { 'pagetype': news.xpath('//meta[@name="pagetype"]/@conte

0热度

1回答

如何使用scrapy

我是能够爬过网络使用保存在内存中抓取的网页下面scrapy脚本 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from lxml import html from scrapy.contrib.spiders import

0热度

1回答

scrapy mysql返回空结果

所以我的问题是被刮的信息不会显示在数据库中。我的蜘蛛很好地打印出信息，例如.json文件。的pipelines.py import sys import MySQLdb import hashlib from scrapy.exceptions import DropItem from scrapy.http import Request class MySQLStorePipel

3热度

1回答

如何使用Scrapy下载图像？

我是scrapy的新手。我正试图从here下载图像。我跟着Official-Doc和this article。我的settings.py样子： BOT_NAME = 'shopclues' SPIDER_MODULES = ['shopclues.spiders'] NEWSPIDER_MODULE = 'shopclues.spiders' ROBOTSTXT_OBEY = True

0热度

1回答

无法获取值从Scrapy统计字典

我有这条管道在我scrapy，我需要得到一个信息从Scrapy统计 class MyPipeline(object): def __init__(self, stats): self.stats = stats @classmethod def from_crawler(cls, crawler): return cls(crawler.s

0热度

1回答

Scrapy从管道获取返回值

我试图从管道获取返回值。我正在使用产量生成器来生成项目。这是我的代码。 def get_or_create(model): model_class = type(model) created = False try: obj = model_class.objects.get(product_company=model.product_company,

1热度

2回答

Scrapy管道解析

我做了一个管道把scrapy数据到我的解析后端 PARSE = 'api.parse.com' PORT = 443 但是，我无法找到合适的在Parse中发布数据的方式。因为每次它在我的分析数据库中创建未定义的对象。一个错误的 class Newscrawlbotv01Pipeline(object): def process_item(self, item, spider):