scrapy-spider

0热度

1回答

我是scrapy的新手，到目前为止我已经能够创建几个蜘蛛。我想写一个抓取Yellowpages的蜘蛛，寻找具有404响应的网站，蜘蛛工作正常，但是，分页不起作用。任何帮助都感激不尽。在此先感谢 # -*- coding: utf-8 -*- import scrapy class SpiderSpider(scrapy.Spider): name = 'spider'

1热度

3回答

第一次运行后Scrapy'twisted.internet.error.ReactorNotRestartable'错误

我正在使用CrawlerProcess从脚本运行Scrapy （版本1.4.0）。网址来自用户输入。第一次运行良好，但在第二次，它给出了twisted.internet.error.ReactorNotRestartable错误。所以，程序停留在那里。履带工艺段： process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compat

0热度

1回答

Scrapy：如何刮出条件表中的链接

我是Python和scrapy的总新手，我必须刮完全用表（几乎80表）构建的网站。该网站的结构是这样的： <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="header" colspan="2">something2</t

1热度

1回答

Scrapy - 基于条件爬行

我有以下Scrapy解析方法： def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

0热度

1回答

定制BaseSpider Scrapy

我想为自定义基本蜘蛛类中的蜘蛛提供一些通用功能。通常scrapy蜘蛛继承scrapy.Spider类。我试图创造scrapy的蜘蛛文件夹BaseSpider类，没有工作 import scrapy class BaseSpider(scrapy.Spider): def __init__(self): super(scrapy.Spider).__init__()

0热度

1回答

无法访问子实例中的父实例varibale

我正在研究scrapy框架。我有一些共同的属性，我想要所有的蜘蛛，所以我做了一个BaseSpider。 BaseSpider import scrapy from src.LoggerFactory import get_logger import ConfigParser from redis import Redis class BaseSpider(scrapy.Spider)

2热度

2回答

Scrapy - 无法提出额外的请求在XMLFeedSpider

我有一个scrapy蜘蛛，使用XMLFeedSpider。除了为parse_node()中的每个节点返回的数据外，我还需要额外请求获取更多数据。唯一的问题是，如果我得到来自parse_node()没有额外的请求被退回所有： class MySpidersSpider(XMLFeedSpider): name = "myspiders" namespaces = [('g', '

0热度

1回答

Scrapy抓取蜘蛛，下面麻烦链接

我知道有与此相关的有十几个问题，但没有，我看到他们的真正的蜘蛛有一种以上的方法... 所以我刮网站，从类别页面开始。我抓取了产品类别的链接，然后尝试利用抓取蜘蛛的规则自动遍历每个类别的“下一页”页面，在每一步中抓取页面中的某些信息。问题是，我只是转到每个类别的第一页，并且似乎忽略了我设置的Rule = True方面。因此，这里的代码，也许需要一些帮助： start_urls = ["http:/

0热度

1回答

如何从网页的身体提取数据，我们有动态谷歌广告之间的内容使用scrapy

我试图从“拉利特卡拉Akademi奖学金2017 - 2018年从...” 到 “电子邮件：[email protected]; [email protected]网站：lalitkala.gov.in” 但我的输出是许多 “\ n” 和 “\ t” 的。我猜这是由于之间的adwords造成的。任何想法如何解决这个问题？ import scrapy class MySpider(scrapy.

2热度

1回答

Scrapy Spider不返回任何信息

我是一名学生，对于一个项目我收集品牌信息。我发现这个网站叫Kit：Kit Page，我想为品牌刮。它有近500页，我在Python 3中编写了一个Scrapy Spider，它遍历每个页面并将列表复制到一个字典中，但我无法弄清xpath或css实际获取列表信息。这里是我的items.py： import scrapy class KitcreatorwebscraperItem(scrapy.