scrapy

1热度

2回答

使用我很新的Scrapy，想尝试以下操作：从网页中提取一些值，将其存储在一个变量，在我的主要脚本中使用它。所以我也跟着他们的教程，并改变了代码为我的目的： import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

0热度

1回答

使用Yield语句返回输出，当使用scrapy没有发现搜索查询时python

我正在按照教程使用scrapy库从网站上刮掉多个页面。本教程使用yield语句通过css选择器和xpath选择器从页面的html和css结构中获取信息。我决定使用if语句来检查搜索查询是否找到结果，并使用else语句来输出当搜索查询没有遇到结果时要执行的操作。当代码执行提取公司名称的else语句，以及位置和销售字段时，我想要一个传达'未找到'的自定义输出字符串时出现问题。当我运行该脚本，我得到以

1热度

2回答

Scrapy DOWNLOAD_DELAY不适用于顺序请求

我目前正在使用Scrapy Python库。首先，我对Fitbit的登录页面（https://www.fitbit.com/login）进行FormRequest调用以记录自己的身份。然后，我向Fitbit的API（https://api.fitbit.com）发出近100条请求。为了不压制API（并且不会被禁止！），我想在settings.py文件中使用DOWNLOAD_DELAY设置请求之

0热度

2回答

Scrapy XPath来获取基于与文本标记文字容器

我有这样的代码： <div class="col-md-12"> <strong>Ingredients:</strong> TOMATOES (TOMATOES AND FIRE ROASTED TOMATOES, TOMATO JUICE, CITRIC ACID, CALCIUM CHLORIDE), WHITE WINE VINEGAR, CARROTS. <span style

1热度

2回答

欧元符号（Scrapy-Python）后刮的价值

我需要一个选择器刮欧元符号（\ u20ac）后的值。 <Selector xpath='//*[@class="col-sm-4"]/text()' data=u'\r\n\t\t \u20ac 30.000,00'> 我尝试了几十个变种，我在这里找到了stackoverflow和elsewere，但我不能得到它。边像https://regexr.com/告诉我这样的事情： respon

0热度

1回答

非常简单的Scrapy +飞溅项目

我正在开发一个非常简单的Scrapy +飞溅项目来抓取JavaScript网站。这是我的代码： splashtest.py： import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

0热度

2回答

使用CSVFeedSpider时出现错误

我正在使用CSVFeedSpider来抓取本地csv文件（foods.csv）。这就是： calories name price 650 Belgian Waffles $5.95 900 Strawberry Belgian Waffles $7.95 900 Berry-Berry Belgian Waffles $8.95 600 Fren

0热度

1回答

Scrapy如何在蜘蛛运行之间保存状态（通过scrapinghub）？

我有一只蜘蛛会按时运行。蜘蛛输入基于日期。从上次刮擦日期到今天的日期。所以问题是如何在Scrapy项目中保存最后一次刮擦的日期？有一个选项可以使用pkjutil模块从scrapy设置获取数据，但是我没有在文档中找到关于如何在该文件中写入数据的任何参考。任何想法？也许是一种选择？ P.S.我的另一种选择是为此使用一些免费的远程MySql数据库。但如果简单的解决方案可用，看起来更多的工作。 impor

0热度

1回答

Scrapy下面的链接没有获取数据

我想要遵循链接列表和每个链接的废料数据与一个简单的scrapy蜘蛛，但我有麻烦。在scrapy shell中，当我重新创建脚本时，它发送新url的get请求，但是当我运行爬网时，我没有从链接中获取任何数据。我找回的唯一数据来自在链接前被抓到的起始网址。如何从链接中抓取数据？ import scrapy class QuotesSpider(scrapy.Spider):

0热度

1回答

scrapy管道类的访问实例

我想访问变量self.cursor以利用活动的postgreSQL连接，但我无法弄清楚如何访问scrapy的管道类实例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS