Q

Hadoop gzip压缩文件

2011-04-12 163 views 16 likes

16

我是hadoop的新手，并试图处理维基百科转储。这是一个6.7 GB的gzip压缩xml文件。我读过hadoop支持gzip压缩文件，但只能在一个作业上由mapper处理，因为只有一个mapper可以解压缩它。这似乎对处理造成了限制。有其他选择吗？像解压和XML文件分割成多个块，并用gzip重新压缩它们。Hadoop gzip压缩文件

我从http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html

感谢您的帮助了解Hadoop的gzip的。

2011-04-12 Boolean

A

回答

3

由于编解码器的限制，无法以任何方式对GZIP文件进行分区。 6.7GB实际上并不是那么大，所以只需在一台机器上解压缩（这将需要不到一个小时），然后将XML复制到HDFS。然后您可以在Hadoop中处理Wikipedia XML。

Cloud9包含一个WikipediaPageInputFormat类，您可以使用该类读取Hadoop中的XML。

2011-04-12 15:34:46 bajafresh4life

20

由于此编解码器的工作方式，使用GZIP编解码器压缩的文件无法拆分。 Hadoop中的单个SPLIT只能由一个映射器处理;所以一个GZIP文件只能由一个Mapper处理。

有ATLEAST三种方式围绕着限制会：

作为预处理步骤：解压缩文件，并使用可分开编解码器（LZO）
作为预处理步骤重新压缩：解压缩文件，分成更小的集合并重新压缩。（See this）
使用此补丁的Hadoop（这是我写的），可用于解决的办法：Splittable Gzip

HTH

2011-04-13 05:55:25

+0

难道我们还需要维护每个拆分XML文件的完整性？ – root1982 2012-05-29 14:43:57

+0

是的，这是使用的RecordReader实例的任务。 – 2012-05-29 15:29:46

+0

这是完整文件gzipping的情况，但Hadoop可以使用块gzipping来解决此问题。看泰德的答案。 – jhclark 2016-08-22 16:41:26

8

这是在HDFS最大的小姐认识一个。

作为gzip文件压缩的文件是不能被MapReduce分割的，但这并不意味着GZip作为编解码器在HDFS中没有价值，并且不能被分割。

作为编解码器的GZip可以与RCFiles，序列文件，Arvo文件以及更多文件格式一起使用。当Gzip编解码器在这些可分割格式中使用时，您可以从Gzip和可分离组件中获得很好的压缩和相当好的速度。

2012-12-25 00:24:37

0

为什么不展开它，并使用可分开LZ压缩，而不是•米

http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

2013-10-11 01:13:22

相关问题

1. 与django_compressor压缩文件以gzip压缩
2. 如何将Hadoop目录压缩到单个gzip文件？
3. javascript gzip压缩
4. AppEngine gzip压缩
5. Gzip解压缩
6. gzip压缩
7. 在Hadoop/PIG中压缩/解压gzip数据是否透明？
8. 在.htaccess文件中启用gzip压缩
9. 在JavaScript文件上强制GZIP压缩
10. Appengine提供gzip压缩文件
11. 异步解压缩gzip文件
12. 如何压缩GZip格式的文件？
13. NIO GZIP压缩和复制文件
14. 与gzhandler PHP为4KB文件gzip压缩
15. node.js如何流化22GB gzip压缩文件解压缩
16. 压缩和解压缩与每个“压缩，gzip，bzip2和zip”文件
17. gzip和webpack压缩
18. 透明GZIP压缩
19. 启用GZIP压缩
20. 启用gzip压缩
21. Spring MVC gzip压缩
22. 解压缩GZIP流
23. Web Api gzip压缩
24. Gzip压缩与MockRestServiceServer
25. Protobuf与GZIP压缩
26. ASP.NET MVC WEB API Gzip压缩 - 解压缩
27. 的Hadoop序列文件压缩
28. Hadoop序列文件中的压缩
29. Hadoop：在HDFS中压缩文件？
30. Mahout的XmlInputFormat处理gzip压缩文件而不重写？