scrapy

    1热度

    2回答

    使用我很新的Scrapy,想尝试以下操作: 从网页中提取一些值,将其存储在一个变量,在我的主要脚本中使用它。 所以我也跟着他们的教程,并改变了代码为我的目的: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

    0热度

    1回答

    我正在按照教程使用scrapy库从网站上刮掉多个页面。本教程使用yield语句通过css选择器和xpath选择器从页面的html和css结构中获取信息。我决定使用if语句来检查搜索查询是否找到结果,并使用else语句来输出当搜索查询没有遇到结果时要执行的操作。当代码执行提取公司名称的else语句,以及位置和销售字段时,我想要一个传达'未找到'的自定义输出字符串时出现问题。 当我运行该脚本,我得到以

    1热度

    2回答

    我目前正在使用Scrapy Python库。 首先,我对Fitbit的登录页面(https://www.fitbit.com/login)进行FormRequest调用以记录自己的身份。然后,我向Fitbit的API(https://api.fitbit.com)发出近100条请求。 为了不压制API(并且不会被禁止!),我想在settings.py文件中使用DOWNLOAD_DELAY设置请求之

    0热度

    2回答

    我有这样的代码: <div class="col-md-12"> <strong>Ingredients:</strong> TOMATOES (TOMATOES AND FIRE ROASTED TOMATOES, TOMATO JUICE, CITRIC ACID, CALCIUM CHLORIDE), WHITE WINE VINEGAR, CARROTS. <span style

    1热度

    2回答

    我需要一个选择器刮欧元符号(\ u20ac)后的值。 <Selector xpath='//*[@class="col-sm-4"]/text()' data=u'\r\n\t\t \u20ac 30.000,00'> 我尝试了几十个变种,我在这里找到了stackoverflow和elsewere,但我不能得到它。 边像https://regexr.com/告诉我这样的事情: respon

    0热度

    1回答

    我正在开发一个非常简单的Scrapy +飞溅项目来抓取JavaScript网站。这是我的代码: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

    0热度

    2回答

    我正在使用CSVFeedSpider来抓取本地csv文件(foods.csv)。 这就是: calories name price 650 Belgian Waffles $5.95 900 Strawberry Belgian Waffles $7.95 900 Berry-Berry Belgian Waffles $8.95 600 Fren

    0热度

    1回答

    我有一只蜘蛛会按时运行。蜘蛛输入基于日期。从上次刮擦日期到今天的日期。所以问题是如何在Scrapy项目中保存最后一次刮擦的日期?有一个选项可以使用pkjutil模块从scrapy设置获取数据,但是我没有在文档中找到关于如何在该文件中写入数据的任何参考。任何想法?也许是一种选择? P.S.我的另一种选择是为此使用一些免费的远程MySql数据库。但如果简单的解决方案可用,看起来更多的工作。 impor

    0热度

    1回答

    我想要遵循链接列表和每个链接的废料数据与一个简单的scrapy蜘蛛,但我有麻烦。 在scrapy shell中,当我重新创建脚本时,它发送新url的get请求,但是当我运行爬网时,我没有从链接中获取任何数据。我找回的唯一数据来自在链接前被抓到的起始网址。 如何从链接中抓取数据? import scrapy class QuotesSpider(scrapy.Spider):

    0热度

    1回答

    我想访问变量self.cursor以利用活动的postgreSQL连接,但我无法弄清楚如何访问scrapy的管道类实例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS