如果我有两个文本文件,一个和,有什么区别:两个concatenated bz2文件和一个由两个连接文件构成的bz2文件有什么区别?
BZ2一二-c> out.bz2
......还有......
cat one two | bzip2 -c> out.bz2
?
具体来说,我使用pbzip2生成bz2文件,将它们放在HDFS上,然后从猪身上读取它们,然后打到MAPREDUCE-477。我无法从版本0.20升级我的hadoop群集,使用非并行bz2实现太慢,我想使用非块压缩算法。
有什么办法可以将连接的bz2文件转换为非连接的文件吗?甚至,我将如何修改pbzip2,以便它生成非串联的bz2文件?
谢谢 -
是的,但bz2是块压缩算法,所以块之间不应该存在依赖关系?他们可能有不同的字典,但我不确定在某些应用程序(例如MAPREDUCE-477)中只读取第一个文件的块是如何产生的? –
如果块是1000字节,第一个文件是1300字节,第二个文件是1700字节;然后猜测当文件连接在一起然后压缩时,中间的块将包含哪些内容。 – Brendan