2014-10-26 56 views
0

我有一个平面文件person.txt,我有以下字段 ID,名称,状态得到每天,DOB加载配置单元时段的表平面文件递增

我有一个蜂巢表-Person这是由分区状态,并由Id(30桶)推动。 1)有没有办法直接将person.txt加载到Person中,以便创建30个存储桶? 目前我有一个中间表,充当从数据加载到人的阶段层

2)我每天以增量方式接收person.txt。有没有办法以增量方式加载Person,以便始终维护30个存储桶。当我从Staging表写入时,插入覆盖将清除所有内容,因此我必须在Staging中保留person.txt的完整历史记录,并且显然整个事件存在于Person中,并且由于复制因子为3. 1 TB变为6 TB。

任何指针,将有助于

回答

0

添加第二个分区的状态划分后的表像batchid。 每次载入新文件时都提供批处理运行编号作为分区值,以便新文件进入新分区并为每个负载创建30个存储桶。

插入重写表PERSON分区(状态,batchid)选择...

OR

LOAD数据本地INPATH改写成表PERSON分区(batchid = 1);