我是hadoop的新手,并试图处理维基百科转储。这是一个6.7 GB的gzip压缩xml文件。我读过hadoop支持gzip压缩文件,但只能在一个作业上由mapper处理,因为只有一个mapper可以解压缩它。这似乎对处理造成了限制。有其他选择吗?像解压和XML文件分割成多个块,并用gzip重新压缩它们。Hadoop gzip压缩文件
我从http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html
感谢您的帮助了解Hadoop的gzip的。
难道我们还需要维护每个拆分XML文件的完整性? – root1982 2012-05-29 14:43:57
是的,这是使用的RecordReader实例的任务。 – 2012-05-29 15:29:46
这是完整文件gzipping的情况,但Hadoop可以使用块gzipping来解决此问题。看泰德的答案。 – jhclark 2016-08-22 16:41:26