2011-12-15 105 views
0

,同时在网络爬虫的工作,我碰到这个涉及到以下网页怪事来了:http://abudhabitourism.ae/en/奇怪的自动HTTP重定向(302码)

当使用wget来下载这个页面,一个状态代码返回200一切都很好。

然而,我的爬虫程序请求该页面(GET请求)时,服务器似乎与返回状态码302一奇怪的“移动到”字段中的位置标题:

http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx&paramName=result&gotoURL=http%3a%2f%2fabudhabitourism.ae%2fen%2fdefault.aspx

这实际上是一个网址或脚本?我如何能在我的爬虫程序处理这种情况的任何想法(即能够自动提取正确的移动 - 从Location头URL)

感谢, Chiraz BenAbdelkader教授

回答

0

我想的wget遵循302的重定向。当我使用curl获取页面时,它将返回包含302和302的URL以跟进。

curl -iI http://abudhabitourism.ae/en/ 
+0

肯定这一定是wget正在做的事情;但我的主要问题是与奇怪的移动到网址;卷曲是否会得到同样的结果? – 2011-12-15 09:47:03