scrapy-spider

0热度

3回答

继在YouTube上的教程： Scraping Web Pages with Scrapy 这是老，为Python 2.x和我学习版本3.x到目前为止，我遇到了几个我通过Google可以找到的问题。不过目前，我得到一个错误： File "/usr/lib64/python3.5/site-packages/twisted/internet/defer.py", line 653, in _runC

1热度

1回答

有没有办法在shell中处理scrapy.Request对象？

在终端，我跑 scrapy startproject tutorial 我创建了下面的蜘蛛在spiders文件夹 import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = ['http://quotes.toscrape.com/page/1/'] 在终端，我跑 scr

0热度

2回答

在Ubuntu上安装Scrapy14.04

我按照安装指南https://docs.scrapy.org/en/latest/intro/install.html 但我安装失败。当我点安装scrapy时，最后安装失败。 ------在11:47 --- 我无法正常运行scrapy编辑。 ---当我运行它---- Traceback (most recent call last): File "/usr/local/bin/scra

1热度

1回答

Scrapy错误：蜘蛛必须返回请求，BaseItem或无，得到'字典'

我已经尝试使用Xpath复制Scrapy教程，并继续运行到ERROR: Spider must return Request, BaseItem or None, got 'dict' in <GET http://quotes.toscrape.com/>不知道如何解决这个问题。我想分享两个文件片段应该是刚好够调试： 1）我的蜘蛛quotes_spider.py from scrapy.spi

0热度

1回答

Scrapy monster.com使用scrapy框架

如何为monster.com创建抓取工具来抓取所有页面。对于“下一页”链接，monster.com调用JavaScript函数，但scrapy不承认的JavaScript 这里是我的代码，它不工作的分页： import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma

-1热度

1回答

在scrapy中选择文件名

我有一个url列表，每个url都与一个唯一的ID相关联。我想使用scrapy下载每个URL并将它们保存在一个以其唯一ID命名的文件中。我通过一个基本的教程去了，有下面的代码，但不知道我怎样才能获得UID，同时节省解析后的文件 - import scrapy import json class QuotesSpider(scrapy.Spider): name = "quotes"

0热度

1回答

Scrapy如何抓取二级分页或嵌套分页

我想抓取Catalog的分页列表，其中正常工作。但每个Catalog存在的DataSet但只有第一页那边在结果出现一个分页列表。我试图得到看起来像这样的结果，但所有24节点都应该在那里对应于24 DataSet跨越每个页面上的6个项目。 [{'data_sets_count': 24, 'description': 'The catalog contains data regardin

0热度

1回答

我们怎样才能提取元素值，如果元素的属性是动态变化

如何，我们可以通过使用xpth或CSS选择提取值，如果属性被动态地改变，例如： <p data-reactid=".2e46q6vkxnc.1.$0"> <b data-reactid=".2e46q6vkxnc.1.$0.0">Mark Obtain</b> <i class="avu-full-width" data-reactid=".2e46q6vkxnc.1.$0.1

0热度

1回答

如何在scrapy中执行多种方法

def parse(self,response): print("parse!!!!!!!!!!!!!!!!!!!") yield scrapy.Request("http://xx.com", callback=self.parseHeader,meta={'item': item}) yield scrapy.Request("http://xx.com ", c

0热度

1回答

如何根据scrapy中日志条目的来源选择性地设置log_level？

是否可以将[scrapy.core.engine]和[scrapy.extensions.logstats]的日志级别设置为'INFO'以及我的自定义记录器并将其他设置设置为'WARNING'？我想这样做是为了从我的日志文件中删除一些混乱的东西。在此先感谢！编辑：我想这样做在this答案描述如下： DEFAULT_LOGGING = { 'version': 1, 'di