2015-07-10 234 views
0

我在尝试使用FormRequest来绕过表单的网页内容。但问题是,在这个表单之后,有一个页面带有一个加载栏,只有在这个栏已满后,该网站才会显示我想要的内容。 scrapy脚本在响应对象中提供加载页面,而不是最终的网页,并带有我想要的结果。我能做些什么来解决这个问题?我相信也许我需要设置一个计时器让爬虫等待加载页面完成他的工作。正在等待scrapy的加载页面

回答

0

在进行基本的HTML抓取时没有等待的概念。 Scrapy向Web服务器发出请求并收到响应 - 这个响应就是你所得到的。

很可能,页面上的加载栏使用Javascript来呈现页面的结果。一个普通的浏览器会在页面上等待 - 引擎盖下,它正在运行Javascript,并可能在网页服务器有足够的信息呈现页面之前向Web服务器发出更多请求。

为了以编程方式复制结果,您必须以某种方式呈现该Javascript。不幸的是,Scrapy不具备这种能力建立在

有些选项你已经包括:

http://www.seleniumhq.org/

https://github.com/scrapinghub/splash