2016-01-23 82 views

回答

0

目前尚不清楚“导出到HDFS”和“导入到Hive”的含义。无论如何,Hive数据文件都是存储在HDFS中的

对于管理表中,与位于下相同的“位置”以确定的方式所有这些数据文件,做最简单的事情是:

  • 打造集B有确切空管理的表相同的布局和SERDE - 也创造所有预期的分区,如果在一个任何
  • distcp整个HDFS树从“位置”到“位置” B中
  • 完成!

这就是我们做克隆一些PROD数据(ORC W/gzip压缩,按月分区)到测试集群。

请注意,您可以将副本限制为一个分区列表,在单个子目录上使用多个distcp命令。

+0

你将如何在集群B中使用完全相同的布局和Serde_创建一个空的托管表? –

+0

你有原始的'CREATE TABLE'脚本存档在代码回购(Git,SVN等),对吧?在另一个集群上再次运行它 –

+0

就像从客户集群获取数据一样,我们没有这些脚本。我们没有关于表格元数据的信息。 –