2011-05-25 80 views
1

我工作的公司将其前端切换到gwt应用程序,我想知道是否有可能编写一个脚本(无论是与bash和wget或cURL,或Java或其他),使我下载gwt web应用程序的实际内容。因为现在如果我尝试使用诸如wget之类的命令,我只是使用一些javascript函数下载页面,但没有实际的页面内容(我感兴趣的内容)。我在质量保证方面,所以我想我很想知道是否有可能在没有直接访问开发者代码的情况下执行这样的任务。 谢谢!下载网页谷歌网络工具包

回答

0

我发现用一种叫做硒工具的解决方案。我能够轻松点击应用程序中的gwt应用程序记录我的活动以供将来使用,并获取应用程序生成的实际html,然后我可以解析所需内容并据此采取相应措施。唯一的小缺点是硒不需要使用htmlunit或httpunit,而需要使用浏览器。

1

GWT使用javascript构建页面(DOM)。所以哟需要渲染初始DOM的东西,运行改变/生成元素的javascript,然后输出整个DOM。基本上你需要一个浏览器。

你最好的选择是寻找一个保存整个页面的浏览器扩展。

0

以下是关于AJAX应用程序中的可爬行性的一般背景。

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

这里是通过喂养页面到的HtmlUnit,导致所有的HTML被渲染,然后把结果发回给网络爬虫实现了爬行规范样本servlet代码。

http://code.google.com/p/google-web-toolkit/source/browse/branches/crawlability/samples/showcase/src/com/google/gwt/sample/showcase/server/CrawlServlet.java?r=6211

+0

感谢您的回复,我之前实现了HTMLUnit代码,尝试从我正在测试的应用程序生成html,但它不生成应用程序的任何实际body html,它只是返回头部提及的内容javascript和css引用。我需要再看看这个,看看我是否可以调整服务器请求或类似的东西。我相信这是可以做到的,因为使用萤火虫我可以查看应用程式的HTML,我只是没有想出HTMLUnit。 – mike 2011-06-03 16:06:46