scrapy-spider

0热度

1回答

我正在开发一个非常简单的Scrapy +飞溅项目来抓取JavaScript网站。这是我的代码： splashtest.py： import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

0热度

2回答

使用CSVFeedSpider时出现错误

我正在使用CSVFeedSpider来抓取本地csv文件（foods.csv）。这就是： calories name price 650 Belgian Waffles $5.95 900 Strawberry Belgian Waffles $7.95 900 Berry-Berry Belgian Waffles $8.95 600 Fren

0热度

1回答

scrapy管道类的访问实例

我想访问变量self.cursor以利用活动的postgreSQL连接，但我无法弄清楚如何访问scrapy的管道类实例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS

-1热度

1回答

如何启动与Scrapy相同格式的多个URL

我的Scrapy蜘蛛需要开始使用以下格式提供的网址抓取： https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TY

0热度

1回答

Scrapy CSV输出重复字段

我有一只蜘蛛（下图），我希望能够每10天左右通过一次Cron作业来运行它，但是，每次我第一次运行它时都会运行它。它重写字段，而不是仅将项目追加到CSV中的相应字段。我该如何做到这一点，以便无论我运行多少次，顶部只有一组字段标题，并且下面的所有数据都包含在其中。 import scrapy class Wotd(scrapy.Item): word = scrapy.Field()

0热度

1回答

Scrapy Csv导出已将所有提取的数据提取到一个单元中

我目前正在构建我的第一个scrapy项目。目前我正在尝试从HTML表格中提取数据。这里是我的抓取蜘蛛至今： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from digikey.items import DigikeyIte

0热度

2回答

Scrapy Spider返回最后一个元素时，给出一个选择器列表

我已经遇到了一个问题，我已经把一个蜘蛛放在一起。我试图从this site的抄本中找出各行文字以及相应的时间戳，并找到了我认为合适的选择器，但运行时，蜘蛛的输出只是最后一行和时间戳。我见过一些其他类似问题的人，但还没有找到解决我的问题的答案。这里是蜘蛛： # -*- coding: utf-8 -*- import scrapy from this_american_life.items i

-1热度

1回答

Python scrapy - 从回调到csv产生初始项目和项目

因此，我设法编写了一个蜘蛛，从这个site中提取“视频”和“英文抄本”的下载链接。看着cmd窗口，我可以看到所有正确的信息都被刮掉了。我遇到的问题是，输出CSV文件只包含了“视频”链接，而不是“英语成绩单”链接（即使你可以看到它在cmd窗口被刮掉）。我已经尝试了其他帖子的一些建议，但他们都没有工作。下面的图片是我想怎么输出看起来像： CSV Output Picture 这是我目前的蜘蛛代码

1热度

2回答

Scrapy店返回变量项主要脚本

使用我很新的Scrapy，想尝试以下操作：从网页中提取一些值，将其存储在一个变量，在我的主要脚本中使用它。所以我也跟着他们的教程，并改变了代码为我的目的： import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

0热度

1回答

想要一个字段添加到像一个序列号，其increament以1为每个产品报废

我想放弃使用Python的废材工具网站蟒蛇零碎的输出。我能够放弃数据，但我想一个附加字段添加到输出中像一个“序列号”：“3001”，每个产品它下脚料串行ID应该增加通过如图1所示，像3002，3003，3004 ............. def parse_dir_contents(self,response): cat = response.meta['cat']