2017-10-19 128 views
1

我正在尝试使用scrapy和scrapy-splash获取请求状态代码,下面是spider代码。如何从scrapy-splash获取200以外的状态代码

class Exp10itSpider(scrapy.Spider): 
    name = "exp10it" 

    def start_requests(self): 
     urls = [ 
       'http://192.168.8.240:8000/xxxx' 
     ] 
     for url in urls: 
      #yield SplashRequest(url, self.parse, args={'wait': 0.5, 'dont_redirect': True},meta={'handle_httpstatus_all': True}) 
      #yield scrapy.Request(url, self.parse, meta={'handle_httpstatus_all': True}) 
      yield scrapy.Request(url, self.parse, meta={'handle_httpstatus_all': True,'splash': { 
       'args': { 
        'html': 1, 
        'png': 1, 
        } 
      } 
      } 
      ) 


    def parse(self, response): 
     input("start .........") 
     print("status code is:\n") 
     input(response.status) 

我的起始URL http://192.168.8.240:8000/xxxx是404个状态码的网址,也有在threee种请求方式:

第一个是:

yield SplashRequest(url, self.parse, args={'wait': 0.5, 'dont_redirect': True},meta={'handle_httpstatus_all': True})

第二个是:

yield scrapy.Request(url, self.parse, meta={'handle_httpstatus_all': True})

第三个是:

yield scrapy.Request(url, self.parse, meta={'handle_httpstatus_all': True,'splash': { 'args': { 'html': 1, 'png': 1, } } } )

只有第二个请求的方式yield scrapy.Request(url, self.parse, meta={'handle_httpstatus_all': True})可以得到正确的状态代码404,第一和第三都得到状态代码200,这是说,以后我尝试使用scrapy -splash,我无法获得正确的状态代码404,你能帮我吗?

回答

1

由于documentationscrapy-splash建议,你必须通过magic_response=TrueSplashRequest来实现这一目标:

meta['splash']['http_status_from_error_code'] - 设置response.status到HTTP错误代码时assert(splash:go(..))失败;它需要meta['splash']['magic_response']=Truehttp_status_from_error_code默认情况下,选项为False;如果您使用原始元API; SplashRequest默认设置为True

编辑: 我能得到它的只有execute端点工作,虽然。下面是使用HTTP状态代码httpbin.org测试样品蜘蛛:

# -*- coding: utf-8 -*- 
import scrapy 
import scrapy_splash 

class HttpStatusSpider(scrapy.Spider): 
    name = 'httpstatus' 

    lua_script = """ 
    function main(splash, args) 
     assert(splash:go(args.url)) 
     assert(splash:wait(0.5)) 
     return { 
     html = splash:html(), 
     png = splash:png(), 
     } 
    end 
    """ 

    def start_requests(self): 
     yield scrapy_splash.SplashRequest(
      'https://httpbin.org/status/402', self.parse, 
      endpoint='execute', 
      magic_response=True, 
      meta={'handle_httpstatus_all': True}, 
      args={'lua_source': self.lua_script}) 

    def parse(self, response): 
     pass 

它通过HTTP 402状态代码到Scrapy,如可以从输出可以看出:

... 
2017-10-23 08:41:31 [scrapy.core.engine] DEBUG: Crawled (402) <GET https://httpbin.org/status/402 via http://localhost:8050/execute> (referer: None) 
... 

可以与其他HTTP实验状态码。

+0

我尝试使用下面的代码,http_status_from_error_code = True,但仍然失败。 'yield scrapy.Request(url,self.parse,meta = {'handle_httpstatus_all':True,'splash':{ 'args':{ 'html':1, 'png':1, }, 'magic_response':True, 'http_status_from_error_code':True } } )''' –

+0

为什么不使用'SplashRequest'?这是与Scrapy一起使用Splash的推荐方式。 –

+0

我尝试使用下面的代码SplashRequest,但仍然失败.'yield SplashRequest(url,self.parse,args = {'wait':0.5,'dont_redirect':True},meta = {'handle_httpstatus_all':True}) '我使用不正确? –