关于在Google App Engine for Java中使用java.net.url的一些问题

-2

我想使用java.net.url来抓取一些网站并检索一些数据。关于在Google App Engine for Java中使用java.net.url的一些问题

我感到困惑以下issues--

（1）假设我配置履带式访问视频共享网页，对于如你管。现在，抓取工具已设置为访问特定的You Tube视频页面 - 这是否意味着当抓取工具实际访问该页面时，默认情况下会下载该页面上的所有元素，包括FLV视频？或者我可以控制要检索哪些文件。其目标是最大限度地减少Google App Engine上的带宽利用率。具体来说，最初我只想要检索HTML网页本身，而不检索该网页上的图像/视频/其他附件......这是可能的，无论是在Google App Engine上，还是作为常规Java Web应用程序的一部分？

（2）什么是快速简单的方法来了解访问单个特定站点时使用的确切带宽？这样我可以跟踪带宽利用率？

同时还要牢记上述两个问题，您是否推荐使用java.net.url或低级API？或者你认为我不应该坚持使用App Engine（并用于例如AWS）？

来源

2012-01-15 Arvind

java.net.url是不是一个履带式的。 – bmargulies 2012-01-15 14:41:42

（1）您的搜寻器只会加载Web服务器响应特定URL的内容，该URL通常是纯HTML。对于YouTube，只需在页面上用浏览器右键单击并选择查看源代码。如果您自动加载页面，那么您将下载该内容。没有视频，只是文字。（2）当您读取网页内容时，只需计算您收到的字节数。那是你的带宽。

来源

2012-01-15 14:45:32 Korbi

关于在Google App Engine for Java中使用java.net.url的一些问题

回答

相关问题