scrapy-spider

    0热度

    1回答

    我是scrapy的新手,到目前为止我已经能够创建几个蜘蛛。我想写一个抓取Yellowpages的蜘蛛,寻找具有404响应的网站,蜘蛛工作正常,但是,分页不起作用。任何帮助都感激不尽。在此先感谢 # -*- coding: utf-8 -*- import scrapy class SpiderSpider(scrapy.Spider): name = 'spider'

    1热度

    3回答

    我正在使用CrawlerProcess从脚本运行Scrapy (版本1.4.0)。网址来自用户输入。第一次运行良好,但在第二次,它给出了twisted.internet.error.ReactorNotRestartable错误。所以,程序停留在那里。 履带工艺段: process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compat

    0热度

    1回答

    我是Python和scrapy的总新手,我必须刮完全用表(几乎80表)构建的网站。 该网站的结构是这样的: <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="header" colspan="2">something2</t

    1热度

    1回答

    我有以下Scrapy解析方法: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

    0热度

    1回答

    我想为自定义基本蜘蛛类中的蜘蛛提供一些通用功能。 通常scrapy蜘蛛继承scrapy.Spider类。 我试图创造scrapy的蜘蛛文件夹BaseSpider类,没有工作 import scrapy class BaseSpider(scrapy.Spider): def __init__(self): super(scrapy.Spider).__init__()

    0热度

    1回答

    我正在研究scrapy框架。 我有一些共同的属性,我想要所有的蜘蛛,所以我做了一个BaseSpider。 BaseSpider import scrapy from src.LoggerFactory import get_logger import ConfigParser from redis import Redis class BaseSpider(scrapy.Spider)

    2热度

    2回答

    我有一个scrapy蜘蛛,使用XMLFeedSpider。除了为parse_node()中的每个节点返回的数据外,我还需要额外请求获取更多数据。唯一的问题是,如果我得到来自parse_node()没有额外的请求被退回所有: class MySpidersSpider(XMLFeedSpider): name = "myspiders" namespaces = [('g', '

    0热度

    1回答

    我知道有与此相关的有十几个问题,但没有,我看到他们的真正的蜘蛛有一种以上的方法... 所以我刮网站,从类别页面开始。我抓取了产品类别的链接,然后尝试利用抓取蜘蛛的规则自动遍历每个类别的“下一页”页面,在每一步中抓取页面中的某些信息。 问题是,我只是转到每个类别的第一页,并且似乎忽略了我设置的Rule = True方面。因此,这里的代码,也许需要一些帮助: start_urls = ["http:/

    0热度

    1回答

    我试图从“拉利特卡拉Akademi奖学金2017 - 2018年从...” 到 “电子邮件:[email protected]; [email protected]网站:lalitkala.gov.in” 但我的输出是许多 “\ n” 和 “\ t” 的。我猜这是由于之间的adwords造成的。任何想法如何解决这个问题? import scrapy class MySpider(scrapy.

    2热度

    1回答

    我是一名学生,对于一个项目我收集品牌信息。我发现这个网站叫Kit:Kit Page,我想为品牌刮。它有近500页,我在Python 3中编写了一个Scrapy Spider,它遍历每个页面并将列表复制到一个字典中,但我无法弄清xpath或css实际获取列表信息。这里是我的items.py: import scrapy class KitcreatorwebscraperItem(scrapy.