我有,我尽量只压缩映射器输出,但不减速机输出地图,减少Java程序。我认为这可以通过在配置实例中设置下列属性来实现。但是,当我运行我的作业时,Reducer生成的输出仍然被压缩,因为生成的文件是:part-r-00000.gz。有没有人成功地压缩了映射器数据但不是减速器?这甚至有可能吗?Hadoop的,如何压缩映射器输出,但不减速机输出
//压缩映射器输出
conf.setBoolean("mapred.output.compress", true);
conf.set("mapred.output.compression.type", CompressionType.BLOCK.toString());
conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);
如果有人感兴趣这是如何适用于avro的,因为avro仅支持快速和放缩,这种配置是最好的。最终减少的文件名称不会改变,但您会发现文件大小因内部块级别上的压缩而发生变化。 更多详细信息,请访问:http://www.quora.com/Can-avro-data-files-be-lzop-compressed-in-Hadoop – 2014-11-26 07:49:53
您是否在向EMR添加步骤时设置了这些设置? – 2016-06-03 08:01:08