2017-07-25 46 views
0

删除所有空操作.bz2文件,我有一个文件夹(实际上HDFS上,但我不认为这会影响这个问题)的操作.bz2文件。其中一些解压缩时会给出单个空文件。我想删除所有解压缩为空的.bz2文件,我注意到它们都具有14个字节的大小。简单地删除所有14个字节的文件是否安全?或者是否有可能将一个非空文件压缩到/从一个14字节的bz2解压缩?从文件夹

回答

0

BZ2是由BZIP 2. BZIP 2中使用的压缩文件格式是Julian Seward写创建一个开放和自由压缩程序。 BZ2文件使用Burrows-Wheeler压缩算法结合运行长度编码(RLE)进行最大压缩。 link

如果你想删除这些文件,先用下面的代码片断。广州文件的详细信息。

解压文件GZ2

gunzip -c test.bz2 | hadoop fs -put - /path/filepath 

阅读其内容

hadoop fs -text /path_for_hdfs/test.bz2 | hadoop fs -put /hdfs_path/abc.txt 
+0

我真的不希望有,虽然解压缩所有文件...问题是,我可以保证一个14字节BZ2是空的? – tex94

0

我创建一个空的文本文件,并使用bzip2压缩并插入到HDFS。 空的bzip2文件的大小是14B。 当我做与非空文件(只有一个字符)相同时它是39字节。

我的结论是,所有的bzip2 14B文件将是空的。

使自己desition根据测试用例...

enter image description here

+0

但是,任何人都可以解释为什么一个14字节的bz2文件会一直解压缩到一个空文件?即您的答案似乎基于归纳推理,但是在潜在的数据丢失问题上,我会因为基于演绎推理的答案而感到更安全。 – tex94

+0

“为什么一个14字节的bz2文件总是会解压到一个空文件。” 使用bzip2压缩的空文件将为14B。 但我不知道14B大小的确切原因 – Rahul

+0

我接受,但可能由于某种原因,非空文件也会压缩到14个字节?仅仅说明一个字符压缩到14个字节是不够的,因为压缩算法很容易被假设为压缩说8,16或32个字符的副本比单个字符的空间要小。我希望有一个具有bz2领域特定知识的人可以提供答案...... – tex94