2015-09-05 154 views
1

我使用this script来抓取一些购物网站。我有一个很大的问题,使这个剧本和其他任何对我毫无价值的东西。node-simplecrawler:ajaxed内容网页抓取问题

我们正计划抓取一个名为digikala(www.digikala.com)的购物网站。问题在于主要产品网格从AJAX调用中加载其数据。

例如,此网页:http://www.digikala.com/Search/Category-Mobile-Phone/#!/Brand-10/Category-Electronic-Devices/Category-Mobile/Category-Mobile-Phone/

如果你看到你的萤火/开发者控制台,您将看到这一类的产品网格是一个Ajax调用后加载后。那么我怎样才能抓取这个产品页面呢?

在获取页面之前添加一些等待(例如10秒)将解决该问题?

+0

回购问题链接:https://github.com/cgiffard/node-simplecrawler/issues/159 –

回答

0

选项1:使用浏览器模拟,如吸phantomjs,

选项2:从结帐的开发工具的一个AJAX网址,直接从URL获取数据。要小心,可能需要特殊的标题,或某种验证。