2012-07-21 94 views
-1

我想刮这个链接,但无法访问它。使用php抓取javascript页面

link

我试图使用卷曲,但没有成功。

+0

我知道这个网站使用post方法,我把这些变量传递给CURL但没有成功。我想取消寻找酒店的页面...... – mishi 2012-07-21 07:01:54

+0

以及我必须纠正自己的网站使用get方法,但一些领域被隐藏,所以我尝试通过卷曲传递他们...........其他方法我已经尝试过使用像用户代理这样的附加组件,但是对于这种情况,我并不想通过任何方式访问所需的页面... – mishi 2012-07-21 07:17:16

+0

$ action =“http://www.hotwire.com/”; $ method =“GET”; $ ref =“http://www.hotwire.com/index.jsp”; $ data_array ['inputId'] =“index”; $ data_array ['rs'] =“0”; $ response = http($ target = $ action,$ ref,$ method,$ data_array,EXCL_HEAD); print_r($ response); – mishi 2012-07-21 09:31:08

回答

0

哇!你很少看到一个这样的网站难以掠夺, 你有没有考虑加入联盟计划? 它可能会打开其他渠道或数据源...

正面攻击要比模仿一个简单的形式GET,饼干也涉及以及(12!他们)加上它爬行与AJAX和这正在动态改变cookies。 还有一个不寻常的分析量,因此可能是从服务器发送的每个页面都预计会从浏览器“回家”,或者服务器知道有什么不对劲。

在一个'正常'网站上,搜索表单会将您转储到结果页面上,这里它使用中间着陆页作为网守,首先检查cookie,然后使用AJAX重写其中的一个或多个cookie。在检查之后,它会自动重定向到结果页面,该页面通过基于新cookie值的ajax再次获取结果。 从结果页面看,结果页面在最终调用数据之前会重复此过程。

这是一个严重过于简单的描述顺便说一句,足以说一小时后,周围找不到一个与cURL的方式。看起来像http://seleniumhq.org/或像Visual Web Ripper的软件包& Djuggler(如果你仍然可以找到免费的个人版),也许可能是像Greasemonkey这样的Firefox插件可以做到这一点。

+0

thx skizz我会研究它 – mishi 2012-07-23 04:17:38