2013-05-12 83 views
4

有谁知道一个工具可以将Apache Hadoop的输出文件“收缩”为更少的文件或一个文件。目前我正在将所有文件下载到本地计算机,并将它们连接在一个文件中。所以没有人知道一个API或一个相同的工具。 在此先感谢。如何减少Apache Hive中输出文件的数量

回答

2

限制输出文件的数量意味着您想限制减速器的数量。你可以在Hive shell的mapred.reduce.tasks属性的帮助下做到这一点。例如:

hive> set mapred.reduce.tasks = 5; 

但它可能会影响查询的性能。或者,您可以在完成查询后使用HDFS shell中的getmerge命令。该命令将源目录和目标文件作为输入,并将src中的文件连接到目标本地文件。

用法:

bin/hadoop fs -getmerge <src> <localdst> 

HTH