使用scrapy python爬行NodeJs和AngularJs网站

我想使用scrapy python爬取网站，大多数网站都成功完成，但大多数网站都给出了艰难的时间，因为它们运行在Nodejs和angularjs框架或其他Java框架上，scrapy爬虫无法从网页中获取详细信息。请在这里，我需要你的关注。期待您的最早帮助。使用scrapy python爬行NodeJs和AngularJs网站

在这里你可以找到最初我使用的试验基地的代码。

import scrapy 
from selenium import webdriver 
from scrapy.http import TextResponse 

class QuotesSpider(scrapy.Spider): 
    name = "quotes" 
    start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation'] 

    def parse(self, response): 
     self.log('i have just visited the ' + response.url) 
     yield{ 
      'product_name' : response.css('p.description.ng-binding > span::text').extract_first(), 
     }

在此先感谢。

来源

2017-04-04 Muhammad Zia Ur Rahman

你的意思是JavaScript框架。鉴于这些网站具有动态内容，您将不得不使用动态网页报废技术。使用*如* [硒，（为什么不）与scrapy（http://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page） – Kanak

你只抓住的HTML标记页面 - 没有实际执行Javascript。有Scrapy的扩展，或者选择一个可以运行Javascript的工具。 – samiles

我只是想，但在点没有到达，请您能不能给我一些片段或链接为更好的帮助。谢谢 –

退房splash：将允许你抓取基于JavaScript的网站。

您也可以创建自己的下载中间件和使用Selenium：How to write customize Downloader Middleware for selenium and Scrapy?

希望这有助于。

来源

2017-04-05 12:25:53

感谢@Blanquer Adrien的回复。 –

没问题@MuhammadZiaUrRahman，希望你能成功地抓取您的网站。 –

使用scrapy python爬行NodeJs和AngularJs网站

回答

相关问题