我会在几个月内做的,从EC2几百万URL的抓取和我的想法,我应该存储这些数据。我的最终目标是分析它,但分析可能不是即时的(即使我现在想为其他原因而抓取它),我最终可能会将数据的副本传输到本地设备上进行存储。我估计数据将在5TB左右。利用冰川作为网络后台抓取
我的问题:我正在考虑使用Glacier来实现此目的,我的想法是我将运行一个多线程爬网程序,它在本地存储抓取的页面(在EB上),然后使用单独的线程来合并,压缩和穿梭数据到冰川。我知道在冰川上的传输速度不一定很好,但由于这个过程没有在线元素,所以这似乎是可行的(尤其是因为我可以随时增加我当地EBS卷的大小以防我爬得比我快存储到冰川)。
是否有缺陷在我的做法或任何人都可以提出一个更具成本效益的,可靠的方式做到这一点?
谢谢!
冰川从根本上说是一个长期归档工具,注重遵守法规(例如,“您必须保存XYZ数据至少N年的存档”)。从中检索数据是一个缓慢,复杂且有时很昂贵的过程 - 除非您存储大量不太可能检索的数据,否则它可能不适合作业。 – duskwuff 2013-05-04 00:13:01