1
我使用this script来抓取一些购物网站。我有一个很大的问题,使这个剧本和其他任何对我毫无价值的东西。node-simplecrawler:ajaxed内容网页抓取问题
我们正计划抓取一个名为digikala(www.digikala.com)的购物网站。问题在于主要产品网格从AJAX调用中加载其数据。
如果你看到你的萤火/开发者控制台,您将看到这一类的产品网格是一个Ajax调用后加载后。那么我怎样才能抓取这个产品页面呢?
在获取页面之前添加一些等待(例如10秒)将解决该问题?
回购问题链接:https://github.com/cgiffard/node-simplecrawler/issues/159 –