我想使用scrapy python爬取网站,大多数网站都成功完成,但大多数网站都给出了艰难的时间,因为它们运行在Nodejs和angularjs框架或其他Java框架上,scrapy爬虫无法从网页中获取详细信息。请在这里,我需要你的关注。期待您的最早帮助。使用scrapy python爬行NodeJs和AngularJs网站
在这里你可以找到最初我使用的试验基地的代码。
import scrapy
from selenium import webdriver
from scrapy.http import TextResponse
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation']
def parse(self, response):
self.log('i have just visited the ' + response.url)
yield{
'product_name' : response.css('p.description.ng-binding > span::text').extract_first(),
}
在此先感谢。
你的意思是JavaScript框架。鉴于这些网站具有动态内容,您将不得不使用动态网页报废技术。使用*如* [硒,(为什么不)与scrapy(http://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page) – Kanak
你只抓住的HTML标记页面 - 没有实际执行Javascript。有Scrapy的扩展,或者选择一个可以运行Javascript的工具。 – samiles
我只是想,但在点没有到达,请您能不能给我一些片段或链接为更好的帮助。谢谢 –