scrapy-spider

    0热度

    3回答

    继在YouTube上的教程: Scraping Web Pages with Scrapy 这是老,为Python 2.x和我学习版本3.x到目前为止,我遇到了几个我通过Google可以找到的问题。不过目前,我得到一个错误: File "/usr/lib64/python3.5/site-packages/twisted/internet/defer.py", line 653, in _runC

    1热度

    1回答

    在终端,我跑 scrapy startproject tutorial 我创建了下面的蜘蛛在spiders文件夹 import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = ['http://quotes.toscrape.com/page/1/'] 在终端,我跑 scr

    0热度

    2回答

    我按照安装指南https://docs.scrapy.org/en/latest/intro/install.html 但我安装失败。当我点安装scrapy时,最后安装失败。 ------在11:47 --- 我无法正常运行scrapy编辑。 ---当我运行它---- Traceback (most recent call last): File "/usr/local/bin/scra

    1热度

    1回答

    我已经尝试使用Xpath复制Scrapy教程,并继续运行到ERROR: Spider must return Request, BaseItem or None, got 'dict' in <GET http://quotes.toscrape.com/>不知道如何解决这个问题。 我想分享两个文件片段应该是刚好够调试: 1)我的蜘蛛quotes_spider.py from scrapy.spi

    0热度

    1回答

    如何为monster.com创建抓取工具来抓取所有页面。对于“下一页”链接,monster.com调用JavaScript函数,但scrapy不承认的JavaScript 这里是我的代码,它不工作的分页: import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma

    -1热度

    1回答

    我有一个url列表,每个url都与一个唯一的ID相关联。我想使用scrapy下载每个URL并将它们保存在一个以其唯一ID命名的文件中。我通过一个基本的教程去了,有下面的代码,但不知道我怎样才能获得UID,同时节省解析后的文件 - import scrapy import json class QuotesSpider(scrapy.Spider): name = "quotes"

    0热度

    1回答

    我想抓取Catalog的分页列表,其中正常工作。 但每个Catalog存在的DataSet但只有第一页那边在结果出现一个分页列表。我试图得到看起来像这样的结果,但所有24节点都应该在那里对应于24 DataSet跨越每个页面上的6个项目。 [{'data_sets_count': 24, 'description': 'The catalog contains data regardin

    0热度

    1回答

    如何,我们可以通过使用xpth或CSS选择提取值,如果属性被动态地改变,例如: <p data-reactid=".2e46q6vkxnc.1.$0"> <b data-reactid=".2e46q6vkxnc.1.$0.0">Mark Obtain</b> <i class="avu-full-width" data-reactid=".2e46q6vkxnc.1.$0.1

    0热度

    1回答

    def parse(self,response): print("parse!!!!!!!!!!!!!!!!!!!") yield scrapy.Request("http://xx.com", callback=self.parseHeader,meta={'item': item}) yield scrapy.Request("http://xx.com ", c

    0热度

    1回答

    是否可以将[scrapy.core.engine]和[scrapy.extensions.logstats]的日志级别设置为'INFO'以及我的自定义记录器并将其他设置设置为'WARNING'?我想这样做是为了从我的日志文件中删除一些混乱的东西。 在此先感谢! 编辑: 我想这样做在this答案描述如下: DEFAULT_LOGGING = { 'version': 1, 'di