2017-02-17 38 views
0

每当我输入任何记录时,我想为我的配置单元添加一个唯一值,该值不应该在整个配置单元表中重复使用。我无法找到任何解决方案或任何功能。在我的情况下,我想要使用拉丁语pig输入蜂巢中的记录。请帮忙。在配置单元表中添加唯一值

+0

您对插入有多少控制?你知道最大批量吗? –

+0

@DuduMarkovitz我一次只有一个文件。 – animal

+0

任何不使用'row_number()over()'的理由? –

回答

0

HIVE不提供类似约束的RDBMS数据库。

使用PIG脚本的建议使用方法如下。 1.加载数据 2.对数据应用DISTINCT 3.将数据存储在某个位置 4.在相同位置创建外部配置单元表。

如果您可以使用HCATALOG,允许您将数据直接存储在Hive表中,则步骤3和4可以结合使用。

正式文件:Link 1link 2

+0

可以请你分享链接吗? – animal

+0

[1]:https://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#DISTINCT [2]:https://hive.apache.org/javadocs/hcat-r0.5.0/loadstore .html –

+0

它如何适用于OP请求? –