scrapy-pipeline

    0热度

    1回答

    我遇到了需要抓取和抓取Scrapy的Scrapy。但根据应用需求,我决定不采用单片方式。一切都应该基于服务。所以我决定设计两项服务。 获取所有网址和html。在s3上传。 html的废料项目 为什么?很简单,今天我决定取消10件物品,明天我要取消20件(应用要求)。在这种情况下,我不想再次抓取url和html,因为html会相同(我只抓取只添加评论的博客站点,而且每个url的内容保持不变)。 第一

    0热度

    1回答

    我试图通过使用Scrapy Framework和djano-item从网页设置图像下载。我想我已经在doc 所做的一切,像但调用scrapy爬行后,我日志看起来像这样: Scrapy log 我找不到有什么地方出了错,但图片字段为空和目录做的任何信息不包含任何图像。 这是我的模型 class Event(models.Model): title = models.CharField(ma

    0热度

    2回答

    我有一个现有的脚本(main.py),需要数据被刮。 我开始了一个scrapy项目来检索这些数据。现在,有没有办法main.py可以从scrapy中检索数据作为Item生成器,而不是使用Item流水线来持久化数据? 像这样的东西真的很方便,但是我不知道如何去做,如果可行的话。 for item in scrapy.process(): 我发现了一个潜在的解决方案:https://tryolab

    1热度

    1回答

    这是我的代码片段。我正在尝试使用Scrapy刮取网站,然后将数据存储在Elasticsearch中以进行索引。 def parse(self, response): for news in response.xpath('head'): yield { 'pagetype': news.xpath('//meta[@name="pagetype"]/@conte

    0热度

    1回答

    我是能够爬过网络使用保存在内存中抓取的网页下面scrapy脚本 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from lxml import html from scrapy.contrib.spiders import

    0热度

    1回答

    所以我的问题是被刮的信息不会显示在数据库中。 我的蜘蛛很好地打印出信息,例如.json文件。 的pipelines.py import sys import MySQLdb import hashlib from scrapy.exceptions import DropItem from scrapy.http import Request class MySQLStorePipel

    3热度

    1回答

    我是scrapy的新手。我正试图从here下载图像。我跟着Official-Doc和this article。 我的settings.py样子: BOT_NAME = 'shopclues' SPIDER_MODULES = ['shopclues.spiders'] NEWSPIDER_MODULE = 'shopclues.spiders' ROBOTSTXT_OBEY = True

    0热度

    1回答

    我有这条管道在我scrapy,我需要得到一个信息从Scrapy统计 class MyPipeline(object): def __init__(self, stats): self.stats = stats @classmethod def from_crawler(cls, crawler): return cls(crawler.s

    0热度

    1回答

    我试图从管道获取返回值。我正在使用产量生成器来生成项目。 这是我的代码。 def get_or_create(model): model_class = type(model) created = False try: obj = model_class.objects.get(product_company=model.product_company,

    1热度

    2回答

    我做了一个管道把scrapy数据到我的解析后端 PARSE = 'api.parse.com' PORT = 443 但是,我无法找到合适的在Parse中发布数据的方式。因为每次它在我的分析数据库中创建未定义的对象。一个错误的 class Newscrawlbotv01Pipeline(object): def process_item(self, item, spider):