我想弄清楚如何抓取完全呈现的页面并对其进行处理。我一直在使用Nokogiri,Hpricot,Mechanize等,但没有人可以捕捉到一个网页,其元素由AJAX或其他事件后呈现。屏幕抓取完全呈现页面
一个例子是Twitter的状态页面,很多的一个,我碰到过这个项目,我遇到的麻烦:
http://twitter.com/#!/nytimes/status/42341419062525952
或
http://twitter.com/#!/alleyinsider/status/42337897038364672
如果您查看HTML源代码,则主要是稍后呈现呈现的JavaScript。在Firebug或其他控制台中检查它,你会看到完全渲染的结果,但我不知道如何用上述工具捕获它。我错过了什么吗?
BTW:是的,我知道有一个Twitter API。但这更像是一个理论问题,因为我在其他一些网站上有不同程度的打击。
谢谢!
我听说过Watir,但从未完全检查过它。我现在就这样做。谢谢! – Nuby 2011-02-28 23:13:26