scrapy-spider

    0热度

    1回答

    我正在开发一个非常简单的Scrapy +飞溅项目来抓取JavaScript网站。这是我的代码: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

    0热度

    2回答

    我正在使用CSVFeedSpider来抓取本地csv文件(foods.csv)。 这就是: calories name price 650 Belgian Waffles $5.95 900 Strawberry Belgian Waffles $7.95 900 Berry-Berry Belgian Waffles $8.95 600 Fren

    0热度

    1回答

    我想访问变量self.cursor以利用活动的postgreSQL连接,但我无法弄清楚如何访问scrapy的管道类实例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS

    -1热度

    1回答

    我的Scrapy蜘蛛需要开始使用以下格式提供的网址抓取: https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TY

    0热度

    1回答

    我有一只蜘蛛(下图),我希望能够每10天左右通过一次Cron作业来运行它,但是,每次我第一次运行它时都会运行它。它重写字段,而不是仅将项目追加到CSV中的相应字段。我该如何做到这一点,以便无论我运行多少次,顶部只有一组字段标题,并且下面的所有数据都包含在其中。 import scrapy class Wotd(scrapy.Item): word = scrapy.Field()

    0热度

    1回答

    我目前正在构建我的第一个scrapy项目。目前我正在尝试从HTML表格中提取数据。这里是我的抓取蜘蛛至今: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from digikey.items import DigikeyIte

    0热度

    2回答

    我已经遇到了一个问题,我已经把一个蜘蛛放在一起。我试图从this site的抄本中找出各行文字以及相应的时间戳,并找到了我认为合适的选择器,但运行时,蜘蛛的输出只是最后一行和时间戳。我见过一些其他类似问题的人,但还没有找到解决我的问题的答案。 这里是蜘蛛: # -*- coding: utf-8 -*- import scrapy from this_american_life.items i

    -1热度

    1回答

    因此,我设法编写了一个蜘蛛,从这个site中提取“视频”和“英文抄本”的下载链接。看着cmd窗口,我可以看到所有正确的信息都被刮掉了。 我遇到的问题是,输出CSV文件只包含了“视频”链接,而不是“英语成绩单”链接(即使你可以看到它在cmd窗口被刮掉)。 我已经尝试了其他帖子的一些建议,但他们都没有工作。 下面的图片是我想怎么输出看起来像: CSV Output Picture 这是我目前的蜘蛛代码

    1热度

    2回答

    使用我很新的Scrapy,想尝试以下操作: 从网页中提取一些值,将其存储在一个变量,在我的主要脚本中使用它。 所以我也跟着他们的教程,并改变了代码为我的目的: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

    0热度

    1回答

    我想放弃使用Python的废材工具网站蟒蛇零碎的输出。 我能够放弃数据,但 我想一个附加字段添加到输出中 像一个“序列号”:“3001”, 每个产品它下脚料 串行ID应该增加通过如图1所示,像3002,3003,3004 ............. def parse_dir_contents(self,response): cat = response.meta['cat']