2012-02-28 100 views
1

我们知道配置单元在分拣工作开始之前不会进行采样。它只是利用MapReduce的分拣机制并在缩减侧执行合并排序,并且只使用一个reduce。由于减少了收集映射器输出的所有数据例如,一台运行Reduce的机器拥有100GB的磁盘,如果数据太大而无法装入磁盘,该怎么办?在Hive中如何实现排序(排序)?

回答

0

Hive的并行排序机制仍在开发中,请参阅here

设计良好的数据仓库或数据库应用程序将避免此类全局排序。如果需要,请尝试使用Pig或Terasort(http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)