bzip2

1热度

2回答

我有一个脚本来解压缩和解析包含在一堆非常大的bzip2压缩文件中的数据。由于可能需要一段时间，我想有一些方法来监视进度。我知道我可以用os.path.getsize()获得文件大小，但是bz2.BZ2File.tell()返回未压缩数据中的位置。有没有办法在未压缩文件中获取当前位置，以便我可以监视进度？如果存在与Java的ProgressMonitorInputStream等效的python，则

1热度

1回答

.bz2管道提取与Node.js？

我想提取.tar.bz2格式像tar.gz的下面与node.js的： request.get("localhost/file.tar.gz") .pipe(zlib.createGunzip()) .pipe(tar.Extract({path: "./test"})) .on("error", function(err){ console.log("Error on extrac

1热度

1回答

两个concatenated bz2文件和一个由两个连接文件构成的bz2文件有什么区别？

如果我有两个文本文件，一个和，有什么区别： BZ2一二-c> out.bz2 ......还有...... cat one two | bzip2 -c> out.bz2 ？具体来说，我使用pbzip2生成bz2文件，将它们放在HDFS上，然后从猪身上读取它们，然后打到MAPREDUCE-477。我无法从版本0.20升级我的hadoop群集，使用非并行bz2实现太慢，我想使用非块压缩算法。有什

12热度

3回答

Hadoop输入的最佳可拆分压缩= bz2？

我们已经意识到，将GZip格式的文件归档为Hadoop处理并不是一个好主意。 Gzip已没有裂开的，以供参考，在这里是我不会重复的问题： Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapp

1热度

1回答

提取压缩的tar文件时，我们是否需要指定压缩级别？

从我迄今为止在OSX 10.8和CentOS 5.5上进行的测试中，看起来tar自动演绎归档的压缩类型，即我可以做tar -xf <compressed archive>而不是tar -jxf <bzip2 compressed archive>或tar -zxf <gzip compressed archive>。我想知道如果我可以依赖tar的自动压缩检测功能，还是这个功能是新的？这些是我玩

3热度

3回答

并行bzip2压缩档

我使用Apache Commons Compress for Java来日志文件压缩多为单tar.bz2存档。但是，压缩需要很长的时间（> 12小时），因为我每天压缩大约20GB的文件。由于这个库压缩文件单线程，我想知道是否有办法做到这一点多线程。我发现很多的解决方案（命令行pbzip2或一些C++库），但我发现for Java是这个博客帖子： https://plus.google.com

1热度

1回答

重复行的csv文件的最佳压缩

我想知道是否有某种最佳方法来压缩具有数百万行重复/重复顺序的csv文件。每行有4-5个元素。只有几百个独特的行，但是因为它们每个都出现很多次，所以文件的总体大小很大。我不熟悉的工具如gzip，bzip2的，等使用的详细交易算法，但我沿着是否有任何的方式来指示该模式的gzip或bzip2的线条思考。例如，如果我有100万行a，b，c，d，e，那么在内部，这可以最佳地表示为abcde的条目，并且如果

3热度

1回答

如何手动传递bzip2的安装源以进行Python安装？

我已经通过了几个有关Python & bzip2的StackOverflow问题。这些对我现在明确的状态非常有帮助。这是我到目前为止已经完成，这个问题我有：我不具有root访问权限，不能安装libbz2-DEV（EL）在/ usr/bin中/ bzip2的是版本1.0.3 在/ usr/bin中/ Python的是2.4.3版本 GNU Stow被用来管理类似的库如何，我的自制作品需要的Py

5热度

2回答

什么文件格式PharData :: extractTo将文件解压缩为？

我正在使用PHP PharData类的extractTo方法来检查phar文件的内容并运行一些平稳的结果。我已经达到了我的字节级侦探工作的极限，并希望这里有人能够帮我解决这个问题。详情如下，但一般来说：当我使用PharData::extractTo提取存档文件时，我得到的文件是bzip变量，但bzip2命令不喜欢它们。这是正常的phar行为，还是与特定档案有关？（或者我使用的PHP/OS组合）

3热度

1回答

将bz2压缩的二进制文件导入为numpy数组

我有一个包含数据数组的bz2压缩二进制（大端）文件。使用外部工具进行解压缩，然后读取文件中numpy的工作： import numpy as np dim = 3 rows = 1000 cols = 2000 mydata = np.fromfile('myfile.bin').reshape(dim,rows,cols) 然而，由于有大量的这样的其他文件，我不能提取每一个单独提前。