2017-04-07 213 views
5

我想了解从Hive表中删除重复记录。如何从Hive表中删除重复的记录?

我的蜂巢表:“dynpart”的列:ID,名称,技术

Id Name Technology 
1 Abcd Hadoop 
2 Efgh Java 
3 Ijkl MainFrames 
2 Efgh Java 

我们有一个像“独特”的选择查询使用,但选择查询只是从表中检索数据的选项。任何人都可以告诉如何使用删除查询从Hive表中删除重复的行。

确定不推荐或不是标准来删除/更新Hive中的记录。但我想知道我们该怎么做。

回答

14

您可以使用插入覆盖语句来更新数据

insert overwrite table dynpart select distinct * from dynpart; 
+0

有什么其他方法可以让我们不必删除整个表并删除记录 – salmanbw

3

可以插入不同的记录到一些其他的表

create table temp as select distinct * from dynpart 
+1

或没有新表:'插入覆盖表dynpart选择不同*从dynpart ' – fi11er

+0

@ fi11er,你的答案正在工作。如果您可以将您的评论置于答案中,我会接受它。 – Sidhartha

+0

@Sidhartha,done – fi11er