2017-09-26 111 views
1

我有一个配置单元内部表,它有大约5亿条记录。 我的配置单元部署在AWS EMR之上。我不想让AWS EMR始终运行。因此我想要备份配置单元内部表数据。备份配置单元内部表的最佳存储格式

一个简单的方法可以创建一个指向S3位置的外部表,然后使用insert命令将所有记录移动到该外部表中。 当我需要内部表回来时,我可以使用这个外部S3表获取所有数据。

由于此表仅用于备份,我想问问哪种存储格式对我来说是最佳选择。

蜂巢截至目前支持以下格式

TEXTFILE 
SEQUENCEFILE 
ORC 
PARQUET 
AVRO 
RCFILE 

也没有任何其他的方式来备份你的内部表比上面提到的方法等。

回答

1

在短期

我想改变文件格式(你提到的列表)不会有大小太大的差别。 但是文件大小和文件的访问类型对于您的云账户账单起着至关重要的作用。

所以考虑以下,

  1. 压缩 - 为了减小尺寸
  2. Amazon Glacier - 在AWS 成本有效的解决方案比S3,因为数据是不太可能访问(存档)

选择解决方案时需要考虑的事项,您可以购买多少时间

  • 从档案存储访问文件。
  • 转换数据格式蜂巢管理表(如果归档过程中更改)
  • 数据解压(每个压缩时间和大小之间的贸易)

扩展答案

这里是一些文件格式与他们的解压缩速度和空间效率,选择平衡(意味着时间/空间根据上述问题)和可用的压缩格式给你。

uncompress chart

more compress and compress benchmarks at