2017-07-06 50 views
1

获取文本我得到这个代码从一个网站:在python scrapy

import scrapy 

class BrickSetSpider(scrapy.Spider): 
    name = "brickset_spider" 
    start_urls = ['http://brickset.com/sets/year-2016'] 

    def parse(self, response): 
     SET_SELECTOR = '.set' 
     for brickset in response.css(SET_SELECTOR): 

      NAME_SELECTOR = 'h1 a ::text' 
      yield { 
       'name': brickset.css(NAME_SELECTOR).extract(), 
      } 

我使用的代码爬行数据。这是运行代码时的示例结果: ![enter image description here

该名称是extract()方法的结果。这是检查元素(铬):

enter image description here

我想请教一下,以获取名称的结果的方式是10805:环游世界或只是周围的世界。怎么做?

回答

1

得到 “10805:环游世界” 的收益率更改为:

yield { 
      'name': " ".join(brickset.css(NAME_SELECTOR).extract()), 
     } 

要获得 “环游世界” 的收益率更改为:

yield { 
      'name': brickset.css(NAME_SELECTOR).extract()[-1], 
     }