2017-10-10 153 views
1

有人可以解释一下使用HCatalog在pigScript中使用蜂巢的哪个文件格式是有效的。阿帕奇猪 - 最佳的蜂巢文件格式

我想知道哪些配置单元文件格式将是有效的,因为目前我们有一个基于日期的分区配置单元表和基础文件是一个顺序文件。 80天的数据读取创建了大约70,000个非常庞大的映射器。试图改变地图拆分大小为2GB,并没有减少很多。

因此,而不是顺序文件寻找其他选项,这将减少映射器的数量。每个数据的数据大小为9GB。

有任何建议或一些灵感?

谢谢。

回答

2

按我的知识ORC是最合适的文件格式为蜂巢它具有高压缩比,在读的大数据量的提高工作效率,也比较快。 ORC存储为列并进行压缩,从而导致读取的磁盘空间更小。列格式也是蜂巢中向量化优化的理想选择。