我想使用java.net.url来抓取一些网站并检索一些数据。关于在Google App Engine for Java中使用java.net.url的一些问题
我感到困惑以下issues--
(1)假设我配置履带式访问视频共享网页,对于如你管。现在,抓取工具已设置为访问特定的You Tube视频页面 - 这是否意味着当抓取工具实际访问该页面时,默认情况下会下载该页面上的所有元素,包括FLV视频?或者我可以控制要检索哪些文件。其目标是最大限度地减少Google App Engine上的带宽利用率。具体来说,最初我只想要检索HTML网页本身,而不检索该网页上的图像/视频/其他附件......这是可能的,无论是在Google App Engine上,还是作为常规Java Web应用程序的一部分?
(2)什么是快速简单的方法来了解访问单个特定站点时使用的确切带宽?这样我可以跟踪带宽利用率?
同时还要牢记上述两个问题,您是否推荐使用java.net.url或低级API?或者你认为我不应该坚持使用App Engine(并用于例如AWS)?
java.net.url是不是一个履带式的。 – bmargulies 2012-01-15 14:41:42