1
我有一个配置单元内部表,它有大约5亿条记录。 我的配置单元部署在AWS EMR之上。我不想让AWS EMR始终运行。因此我想要备份配置单元内部表数据。备份配置单元内部表的最佳存储格式
一个简单的方法可以创建一个指向S3位置的外部表,然后使用insert命令将所有记录移动到该外部表中。 当我需要内部表回来时,我可以使用这个外部S3表获取所有数据。
由于此表仅用于备份,我想问问哪种存储格式对我来说是最佳选择。
蜂巢截至目前支持以下格式
TEXTFILE
SEQUENCEFILE
ORC
PARQUET
AVRO
RCFILE
也没有任何其他的方式来备份你的内部表比上面提到的方法等。