scrapy-splash

    1热度

    1回答

    我试图在Docker容器中同时使用Splash(呈现JavaScript)和Tor通过Privoxy(提供匿名性)来抓取Scrapy蜘蛛。下面是我使用这个月底docker-compose.yml: version: '3' services: scraper: build: ./apk_splash # environment: # - http_pr

    0热度

    1回答

    背景:我正在使用Scrapy从http://shop.nordstrom.com/c/mens-tshirts中抓取和刮取产品数据。该页面是动态生成的,所以我使用Scrapy-Splash来处理JavaScript。问题是,单击页面底部的“下一步”按钮是进入后续产品页面的唯一方法。如果您复制第2页的该网址并将其粘贴到新标签中,则该网页上没有任何产品。 为了解决这个问题,我尝试使用Selenium中

    0热度

    1回答

    我正在使用Scrapy-Splash请求获取页面的渲染截图,但我也需要该页面上的图像。我使用流水线来下载这些图像,但我在想 - 这是不是对同一图像发出两个请求?一旦Splash呈现页面,并且一次发送下载请求时。有没有一种方法可以让Scrapy-Splash请求返回图像?

    2热度

    1回答

    我在一个Scrapy项目中有两个蜘蛛。 Spider1抓取页面或整个网站的列表并分析内容。 Spider2使用Splash在Google上获取网址并将该列表传递给Spider1。 所以,Spider1抓取和分析内容,并可以在不被Spider2 # coding: utf8 from scrapy.spiders import CrawlSpider import scrapy class

    1热度

    2回答

    我正在尝试使用Docker配置启动服务器以便为scrapy呈现JavaScript。 我下载并安装了Docker工具箱(由于缺少CPU MMU支持,Docker的最新版本未安装在我的Macbook Pro 2009上)。 我在Docker快速入门终端中运行“docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash”。该

    1热度

    1回答

    我在使用scrapy + splash的网站上进行连接时非常麻烦(感谢this thread)。 我知道我已登录,因为我可以在登录后显示一些可用的元素。但只要我尝试与另一个网页联系另一个网页SplashRequest,网站就会要求再次登录。 所以似乎scrapy(或飞溅)不会保持会话激活。有什么要启用,以保持记录,并保持会话激活? 谢谢

    0热度

    2回答

    所以我玩Scrapy &飞溅,我遇到了一些问题。 我试着运行我的蜘蛛,并不断得到HTTP错误。好吧,所以我试图在浏览器中查看Splash。 首先我做了“sudo docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash --max-timeout 3600 -v3”开始运行Splash,然后我去了localhost:8050。 Web用户界面打

    0热度

    1回答

    我在AWS Ubuntu服务器上设置了scrapy和scrapy-splash。它在一段时间内工作正常,但几个小时后,我会开始得到这样的错误消息; Traceback (most recent call last): File "/home/ubuntu/.local/lib/python3.5/site- packages/twisted/internet/defer.py", li

    0热度

    1回答

    我只有通过使用刮JS内容成功以下为请求 def start_requests(self): for url in self.start_urls: yield scrapy.Request( url, self.parse, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'

    0热度

    1回答

    如何为monster.com创建抓取工具来抓取所有页面。对于“下一页”链接,monster.com调用JavaScript函数,但scrapy不承认的JavaScript 这里是我的代码,它不工作的分页: import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma