2017-05-04 73 views
-1

我想要废弃一个Web内容,并且我正在使用Scrapy。我已经多次使用这个工具,并且它一直运行良好,但是现在它停止工作于其中一个网站“https://careers.dexcom.com/search-results”。Scrapy无法正常工作

当你访问这个网页时,你会看到有一个类“jobs-list-item”的“li”,当我尝试使用这个选择器获取数据时,它什么都没给。

这是迄今为止ü试图代码:

import scrapy 


class BrickSetSpider(scrapy.Spider): 
    name = 'brick_spider' 
    start_urls = ['http://careers.dexcom.com/search-results'] 

    def parse(self, response): 
     SET_SELECTOR = '.jobs-list-item' 
     for brickset in response.css(SET_SELECTOR): 
      print "****************here we go****************" 
      """ 
      NAME_SELECTOR = 'h1 a ::text' 
      yield { 
       'name': brickset.css(NAME_SELECTOR).extract_first() 
      } 
      """ 
+1

您发布的代码不会__做任何事情。其中一半用三引号引起注释,无论如何,它所做的只是定义一个从不_called_的类。向我们展示您尝试的实际代码及其输出,以及您期望的代码。 –

回答

2

不,“页”在Scrapy的情况下并没有“礼”带班的“工作清单项目”,因为它是纯粹的HTML响应,而列表项目正在使用Ajax加载。

要看到页面Scrapy看到它使用scrapy shell http://careers.dexcom.com/search-results,然后在控制台中输入view(response)出现。

要解析工作饲料,您需要使用像Splash(这在我看来是开销)或只是找到Ajax提要URL,请求它并解析JSON响应。