2016-11-23 54 views
-3

我一直在试图刮文本关闭这个网站http://www.ewtn.com/daily-readings/?date=2017-11-26scrapy可能被阻塞部位

,当我从壳型

>response.xpath('//text()').extract() 

我无法访问下面的HTML信息

<span id="cur-date">Sunday, November 26, 2017</span> 

这将是周日,2017年11月26日

<div class="reading-type">First Reading</div> 

这将是首读

我得到几乎所有的页面上的其他人,但 - 好像scrapy被阻止

+0

JavaScript。 Scrapy不运行JavaScript。尝试使用阻止JS的浏览器打开页面,您将看到问题。 – Markus

+0

谢谢!用scrapy-webdriver解决它 – mloch

回答

0

由于去马库斯为把我在正确的方向!我用scrapy-webdriver让我在PhantomJS中渲染JavaScript,以便用Scrapy解析它...因为Scrapy不运行JavaScript,并且这个站点似乎将它直接注入到浏览器中以转换成HTML ... PhantomJS是一个无头浏览器为Scrapy运行JavaScript。