2015-04-23 71 views
3

我用cheerio模块从网站上刮取产品清单。但有问题,网站使用“无限滚动”来加载数据(向下滚动时数据加载更多)。所以,cheerio无法获得所有产品。用cheerio和nodejs刮去数据

有人可以建议我解决这个问题吗?谢谢。

+1

只是从他们用来填充内容的api抓取数据;在滚动时观看devtools中的网络标签,注意新添加的网址。然后调用url直接获取json,而不是试图抓取HTML。 – dandavis

+0

对于常见的页面信息,你可以使用https://github.com/Mitica/html-explorer – dumitru

回答

1

您可以查看滚动时页面执行哪种查询。然后只需自己点击这些查询并获取数据。

或者,您可以尝试使用类似node-phantom-simple的东西,通过Phantom触发滚动并刮擦。

我会自己与第一个选项。