我一直在试图抓取并最终从hostels.com解析一些数据(特别是可用性和价格),例如http://www.hostels.com/hosteldetails.php/HostelNumber.11890。问题是,一旦你选择了夜晚的数量并选择“现在预订”,没有任何东西通过URL字符串传递(它全部通过Ajax完成,我相信),我不能直接进入特定的日期或时间范围。屏幕抓取/解析帮助
我试图浏览器仿真器,如硒,IRobotSoft和FakeApp,虽然我没有得到硒和假做太多的工作获取完整的源代码的,这是丑陋的,仍然有刮(与其他解析时繁琐软件)每天多个页面。
我也试过HTML DOM解析器,PHP脚本Web浏览器,HTMLUnit,cScrape.php,Crowbar。要么他们无法处理Ajax,要么我没有运气让他们跑步。
理想情况下,我希望能够从服务器运行一些尽可能少的依赖关系,但此时我只想让它运行。
现在花了很多小时试图让这个工作。我仍然觉得我不确定从哪里开始。有人能指出我正确的方向吗?我应该回去并花更多时间用HTMLUnit吗?对于像这样的网站,最佳做法是什么?
感谢
哇,jQuery是伟大的IL给这一个镜头,谢谢。 – Alex 2011-05-28 16:59:01