scrapy-splash

1热度

1回答

在将Splash与Scrapy结合使用HTTP代理时发生“500内部服务器错误”

我试图在Docker容器中同时使用Splash（呈现JavaScript）和Tor通过Privoxy（提供匿名性）来抓取Scrapy蜘蛛。下面是我使用这个月底docker-compose.yml： version: '3' services: scraper: build: ./apk_splash # environment: # - http_pr

0热度

1回答

使用Scrapy-splash导航动态页面

背景：我正在使用Scrapy从http://shop.nordstrom.com/c/mens-tshirts中抓取和刮取产品数据。该页面是动态生成的，所以我使用Scrapy-Splash来处理JavaScript。问题是，单击页面底部的“下一步”按钮是进入后续产品页面的唯一方法。如果您复制第2页的该网址并将其粘贴到新标签中，则该网页上没有任何产品。为了解决这个问题，我尝试使用Selenium中

0热度

1回答

Scrapy-Splash退回图像内容

我正在使用Scrapy-Splash请求获取页面的渲染截图，但我也需要该页面上的图像。我使用流水线来下载这些图像，但我在想 - 这是不是对同一图像发出两个请求？一旦Splash呈现页面，并且一次发送下载请求时。有没有一种方法可以让Scrapy-Splash请求返回图像？

2热度

1回答

如何从另一个开始Scrapy蜘蛛

我在一个Scrapy项目中有两个蜘蛛。 Spider1抓取页面或整个网站的列表并分析内容。 Spider2使用Splash在Google上获取网址并将该列表传递给Spider1。所以，Spider1抓取和分析内容，并可以在不被Spider2 # coding: utf8 from scrapy.spiders import CrawlSpider import scrapy class

1热度

2回答

启动服务器与Docker未在Mac上运行

我正在尝试使用Docker配置启动服务器以便为scrapy呈现JavaScript。我下载并安装了Docker工具箱（由于缺少CPU MMU支持，Docker的最新版本未安装在我的Macbook Pro 2009上）。我在Docker快速入门终端中运行“docker run -p 5023：5023 -p 8050：8050 -p 8051：8051 scrapinghub/splash”。该

1热度

1回答

Scrapy Splash - 保持登录状态

我在使用scrapy + splash的网站上进行连接时非常麻烦（感谢this thread）。我知道我已登录，因为我可以在登录后显示一些可用的元素。但只要我尝试与另一个网页联系另一个网页SplashRequest，网站就会要求再次登录。所以似乎scrapy（或飞溅）不会保持会话激活。有什么要启用，以保持记录，并保持会话激活？谢谢

0热度

2回答

尝试Scrapy +飞溅

所以我玩Scrapy &飞溅，我遇到了一些问题。我试着运行我的蜘蛛，并不断得到HTTP错误。好吧，所以我试图在浏览器中查看Splash。首先我做了“sudo docker run -p 8050：8050 -p 5023：5023 scrapinghub/splash --max-timeout 3600 -v3”开始运行Splash，然后我去了localhost：8050。 Web用户界面打

0热度

1回答

Scrapy + Splash（Docker）问题

我在AWS Ubuntu服务器上设置了scrapy和scrapy-splash。它在一段时间内工作正常，但几个小时后，我会开始得到这样的错误消息; Traceback (most recent call last): File "/home/ubuntu/.local/lib/python3.5/site- packages/twisted/internet/defer.py", li

0热度

1回答

如何通过旋转代理使用scrapy-splash？

我只有通过使用刮JS内容成功以下为请求 def start_requests(self): for url in self.start_urls: yield scrapy.Request( url, self.parse, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'

0热度

1回答

Scrapy monster.com使用scrapy框架

如何为monster.com创建抓取工具来抓取所有页面。对于“下一页”链接，monster.com调用JavaScript函数，但scrapy不承认的JavaScript 这里是我的代码，它不工作的分页： import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma