2016-11-18 85 views
0

如何增量数据加载到一个分区蜂巢表Sqoop增量装载到分区蜂巢表

我已经表“用户”有以下的列,我已经根据created_on场创建蜂巢分区

id bigint, 
name string, 
created_on string(yyyy-MM-dd), 
updated_on string 

我创建了一个sqoop工作要导入增量基于最后修改日期

sqoop job --create users -- import --connect jdbc:mysql://<ip>/product --driver com.mysql.jdbc.Driver --username <> -P --table users --incremental lastmodified --check-column updated_on --last-value "2016-11-15"--hive-table users --hive-import --hive-partition-key created_on --hive-partition-value "2016-11-15" --m 1 

如果您遵守上述工作,这将获取基于上次modifi ED值,将其插入错误的分区

有没有解决有关此问题

回答

0

你在一个分区加载1列,并希望编写一个基于不同的列?这只是'不匹配'。

该解决方案似乎是使负载和分区排队。

所以如果你想写所有记录与created_on等于2016-11-15,那么也请确保加载在这些记录。 (我想你不应该在这种情况下使用标准增量功能)。