2011-05-20 93 views
3

也许这听起来很天真,但是有一些东西甚至远远接近基于ajax的网站的php爬虫?基于ajax的网站的php爬虫?

+0

这不是PHP的,所以我不提供它作为一个答案,但在的HtmlUnit Java是完全脚本模拟浏览器组件,完全与JS的支持 - 可作为一个履带式了。 – Piskvor 2011-05-20 11:02:26

回答

2

问题是,香草PHP不明白如何解析JavaScript,生成JavaScript环境,并与一切互动。为了在理论上做到这一点,您必须通过C API扩展PHP并将其与JavaScript库进行连接。这个规模很大,取决于你有多少资源。

2

不是自动爬虫,因为他们需要了解JavaScript代码并需要知道发生了什么。

他们可以做的是使用与启用ajax的脚本相同的调用,因此您可以获取原始数据。

但是,这意味着您需要对网页及其调用的网址有非常好的理解,并且相当费力。

所以答案是:不,据我所知,它们不存在。