我有以HDFS文本形式存储的日志文件。当我将日志文件加载到Hive表中时,所有文件都被复制。是否可以在不复制数据的情况下将数据导入Hive表中
我可以避免将所有文本数据存储两次吗?
编辑:我通过以下命令加载它
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
然后,我能找到完全相同的文件中:
/user/hive/warehouse/sandbox.db/test/day=20130220
我以为它被复制。
How do you say,它的复制?你如何将它们加载到配置单元表中? – 2013-03-07 12:26:12
我通过'LOAD DATA INPATH'xxx'INTO TABLE yyy'(见文章编辑)加载它,然后在'/ user/hive/warehouse'中找到该文件。我想知道它是否可以离开它(我想我将不得不在我的目录中强制执行分区结构,但这很好) – 2013-03-07 13:11:39
它如何存储在HDFS中? – 2013-03-07 13:12:08