2010-10-13 48 views
1

我需要获取网页上的内容,并通过在cURL上阅读它,但内容不包括JavaScript上的数据任何机构可以帮助我解决这个问题?如何获取网页上的内容包括JavaScript中的内容喜欢在浏览器上看到

+0

什么意思是“包含Javascript数据”的意思。外部JS没有加载的事实?或者说它没有执行? – 2010-10-13 09:35:22

+0

是的,JS没有加载。例如http://trailers.apple.com/trailers/independent/stone/我无法获得查看预告片(2) – 2010-10-13 09:56:51

回答

2

不可能。内嵌JavaScript的网页实际上是一个程序。 CURL为您提供程序的源代码(HTML和JavaScript),但不运行该程序。要运行页面的嵌入式JavaScript,您需要(1)JavaScript解释器,以及(2)页面的文档对象模型(DOM)。浏览器有这些,但PHP不。人们正在研究这些PHP版本,但开发这些是很重要的任务。如果这是你所需要的,你可以跳过PHP,而是用WebKit来编写C++代码。

+0

好的,非常感谢。 – 2010-10-13 10:35:24

0

您试过file_get_contents吗?

+0

的内容是的,我已经尝试过,但现在工作。 – 2010-10-13 09:57:47

0

是的,它是possibe你可以通过一个phantomjs浏览器,加载页面 处理它的JavaScript,然后你也可以检索动态呈现的内容。 看看这个链接,它可能会帮助你。

https://github.com/jonnnnyw/php-phantomjs