bzip2

    1热度

    2回答

    我有一个脚本来解压缩和解析包含在一堆非常大的bzip2压缩文件中的数据。由于可能需要一段时间,我想有一些方法来监视进度。我知道我可以用os.path.getsize()获得文件大小,但是bz2.BZ2File.tell()返回未压缩数据中的位置。有没有办法在未压缩文件中获取当前位置,以便我可以监视进度? 如果存在与Java的ProgressMonitorInputStream等效的python,则

    1热度

    1回答

    我想提取.tar.bz2格式像tar.gz的下面与node.js的: request.get("localhost/file.tar.gz") .pipe(zlib.createGunzip()) .pipe(tar.Extract({path: "./test"})) .on("error", function(err){ console.log("Error on extrac

    1热度

    1回答

    如果我有两个文本文件,一个和,有什么区别: BZ2一二-c> out.bz2 ......还有...... cat one two | bzip2 -c> out.bz2 ? 具体来说,我使用pbzip2生成bz2文件,将它们放在HDFS上,然后从猪身上读取它们,然后打到MAPREDUCE-477。我无法从版本0.20升级我的hadoop群集,使用非并行bz2实现太慢,我想使用非块压缩算法。 有什

    12热度

    3回答

    我们已经意识到,将GZip格式的文件归档为Hadoop处理并不是一个好主意。 Gzip已没有裂开的,以供参考,在这里是我不会重复的问题: Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapp

    1热度

    1回答

    从我迄今为止在OSX 10.8和CentOS 5.5上进行的测试中,看起来tar自动演绎归档的压缩类型,即我可以做tar -xf <compressed archive>而不是tar -jxf <bzip2 compressed archive>或tar -zxf <gzip compressed archive>。 我想知道如果我可以依赖tar的自动压缩检测功能,还是这个功能是新的? 这些是我玩

    3热度

    3回答

    我使用Apache Commons Compress for Java来日志文件压缩多为单tar.bz2存档。 但是,压缩需要很长的时间(> 12小时),因为我每天压缩大约20GB的文件。 由于这个库压缩文件单线程,我想知道是否有办法做到这一点多线程。 我发现很多的解决方案(命令行pbzip2或一些C++库),但我发现for Java是这个博客帖子: https://plus.google.com

    1热度

    1回答

    我想知道是否有某种最佳方法来压缩具有数百万行重复/重复顺序的csv文件。每行有4-5个元素。只有几百个独特的行,但是因为它们每个都出现很多次,所以文件的总体大小很大。 我不熟悉的工具如gzip,bzip2的,等使用的详细交易算法,但我沿着是否有任何的方式来指示该模式的gzip或bzip2的线条思考。例如,如果我有100万行a,b,c,d,e,那么在内部,这可以最佳地表示为abcde的条目,并且如果

    3热度

    1回答

    我已经通过了几个有关Python & bzip2的StackOverflow问题。这些对我现在明确的状态非常有帮助。这是我到目前为止已经完成,这个问题我有: 我不具有root访问权限,不能安装libbz2-DEV(EL) 在/ usr/bin中/ bzip2的是版本1.0.3 在/ usr/bin中/ Python的是2.4.3版本 GNU Stow被用来管理类似的库如何,我的自制作品 需要的Py

    5热度

    2回答

    我正在使用PHP PharData类的extractTo方法来检查phar文件的内容并运行一些平稳的结果。我已经达到了我的字节级侦探工作的极限,并希望这里有人能够帮我解决这个问题。 详情如下,但一般来说:当我使用PharData::extractTo提取存档文件时,我得到的文件是bzip变量,但bzip2命令不喜欢它们。这是正常的phar行为,还是与特定档案有关? (或者我使用的PHP/OS组合)

    3热度

    1回答

    我有一个包含数据数组的bz2压缩二进制(大端)文件。使用外部工具进行解压缩,然后读取文件中numpy的工作: import numpy as np dim = 3 rows = 1000 cols = 2000 mydata = np.fromfile('myfile.bin').reshape(dim,rows,cols) 然而,由于有大量的这样的其他文件,我不能提取每一个单独提前。