我使用配置单元(与外部表)处理存储在亚马逊S3上的数据。Hive Table添加分区以加载所有子目录
我的数据被划分如下: group/team/dt/
(例如,数据文件可以被存储在一个路径group=myGroup/team=myTeam/dt=20120603
)
我想处理用于几个团队数据(在不同的基团)。 由于RCOVER PARTITIONS需要很长时间,因此我希望将基于组和团队值的多个分区添加到配置单元表(即给定该团队中所有可用日期的组和团队负载数据)。
我正在寻找的功能是:
CREATE EXTERNAL TABLE myData(
attr1 string, attr2 string, attr3 string)
PARTITIONED BY (group string, team string, dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://myBucket/${DATA_ROOT_DIR}';
-- Add paritions without specifying values for dt
ALTER TABLE myData ADD PARTITION (group='group1',team='team1') ;
ALTER TABLE myData ADD PARTITION (group='group2',team='team2') ;
谢谢!
问题是关于恢复/添加分区而不是动态创建分区。根据问题,分区已经存在,他希望有选择地恢复某些分区。 –