2012-01-15 38 views
-2

我想使用java.net.url来抓取一些网站并检索一些数据。关于在Google App Engine for Java中使用java.net.url的一些问题

我感到困惑以下issues--

(1)假设我配置履带式访问视频共享网页,对于如你管。现在,抓取工具已设置为访问特定的You Tube视频页面 - 这是否意味着当抓取工具实际访问该页面时,默认情况下会下载该页面上的所有元素,包括FLV视频?或者我可以控制要检索哪些文件。其目标是最大限度地减少Google App Engine上的带宽利用率。具体来说,最初我只想要检索HTML网页本身,而不检索该网页上的图像/视频/其他附件......这是可能的,无论是在Google App Engine上,还是作为常规Java Web应用程序的一部分?

(2)什么是快速简单的方法来了解访问单个特定站点时使用的确切带宽?这样我可以跟踪带宽利用率?

同时还要牢记上述两个问题,您是否推荐使用java.net.url或低级API?或者你认为我不应该坚持使用App Engine(并用于例如AWS)?

+1

java.net.url是不是一个履带式的。 – bmargulies 2012-01-15 14:41:42

回答

1

(1)您的搜寻器只会加载Web服务器响应特定URL的内容,该URL通常是纯HTML。对于YouTube,只需在页面上用浏览器右键单击并选择查看源代码。如果您自动加载页面,那么您将下载该内容。没有视频,只是文字。 (2)当您读取网页内容时,只需计算您收到的字节数。那是你的带宽。