1
我正在寻找合并由Map-reduce程序生成的小型RC文件的方式。 什么是最好的小RC文件合并到大的RC文件。hadoop RC文件格式:合并hdfs中的小文件
我正在寻找合并由Map-reduce程序生成的小型RC文件的方式。 什么是最好的小RC文件合并到大的RC文件。hadoop RC文件格式:合并hdfs中的小文件
您可以尝试getmerge命令。这将源目录和目标文件作为输入,并将源目录中的文件连接到目标文件。
例如,如果Hive表名是search_combined_rc,则可以将组合的rc文件组合到单个文件中。
Hadoop的FS -getmerge /user/hive/warehouse/dev.db/search_combined_rc//localdata /目的地文件
由于RCFile的不能打开典型的顺序文件的工具打开,你可以尝试使用rcfilecat工具来显示RCFiles的内容。您需要将文件从本地目录移回HDFS。
hive --service rcfilecat/hdfsfilelocation
做了这项工作吗?我想可能有另一种方法,你可以通过设置减速器1的数量在一个文件中包含所有文件。 –