1
我有一个包含双精度值(64位浮点数据)的二进制文件。使用numpy的fromfile
使用numpy fromfile和lzma读取二进制文件打开
>>> data1 = numpy.fromfile(open('myfile', 'rb'))
我收到正确的数据(我得到同样的数据与data1 = numpy.fromfile('myfile')
)
>>> data1
array([ 1.29000000e-07, 3.70000000e-08, 3.80000000e-08,
3.70000000e-08, 3.60000000e-08, 3.80000000e-08,
3.80000000e-08, 3.70000000e-08, 3.80000000e-08,
3.60000000e-08, 3.80000000e-08, 3.70000000e-08,
3.60000000e-08, 3.60000000e-08, 3.80000000e-08,
3.50000000e-08, 3.80000000e-08, 3.80000000e-08,
3.80000000e-08, 3.60000000e-08, 3.70000000e-08,
3.60000000e-08, 3.70000000e-08, 3.70000000e-08,
3.60000000e-08, 3.50000000e-08, 3.70000000e-08,
3.70000000e-08, 3.60000000e-08, 3.50000000e-08,
3.80000000e-08, 3.80000000e-08, 3.60000000e-08,
3.50000000e-08, 3.90000000e-08, 3.70000000e-08,
3.70000000e-08, 3.70000000e-08, 3.50000000e-08,
3.70000000e-08, 3.60000000e-08, 3.70000000e-08,
3.80000000e-08, 3.90000000e-08, 3.90000000e-08,
3.60000000e-08, 3.60000000e-08, 3.70000000e-08,
3.60000000e-08, 3.80000000e-08, 3.70000000e-08,
3.50000000e-08, 3.50000000e-08, 3.60000000e-08,
3.60000000e-08, 3.70000000e-08, 3.50000000e-08,
3.70000000e-08, 3.60000000e-08, 3.80000000e-08,
3.80000000e-08, 3.80000000e-08, 3.80000000e-08,
3.90000000e-08, 3.90000000e-08, 3.50000000e-08,
3.80000000e-08, 3.80000000e-08, 3.70000000e-08,
3.70000000e-08, 3.60000000e-08, 3.80000000e-08,
3.60000000e-08, 3.70000000e-08, 3.70000000e-08,
3.80000000e-08, 3.60000000e-08, 3.60000000e-08,
3.50000000e-08, 3.80000000e-08, 3.60000000e-08,
3.70000000e-08, 3.60000000e-08, 3.80000000e-08,
3.50000000e-08, 3.80000000e-08, 3.70000000e-08,
3.60000000e-08, 3.70000000e-08, 3.90000000e-08,
3.60000000e-08, 3.60000000e-08, 3.90000000e-08,
3.80000000e-08, 3.60000000e-08, 3.60000000e-08,
3.70000000e-08, 3.70000000e-08])
我现在用xz
xz -k myfile
压缩这个文件,随后尝试读取python中的数据使用lzma
模块
>>> data2 = numpy.fromfile(lzma.open('myfile.xz'))
>>> data2
array([ 2.05244522e-289, 3.09873319e-303, -9.10852154e-136,
9.99900586e-150, -7.22647881e+061, -3.03508634e-168,
1.40409926e+097, -8.66961452e+219, 2.28992199e-308,
-7.28706929e+173, 1.41101250e+029, -2.94590886e-279,
7.21680144e+171, -4.62715868e+045, 3.05536517e-138,
-2.94268247e-043, -1.54563603e-295, 7.53024241e+102,
-1.22865109e+263, 2.62485731e+044, 4.52556260e-312,
1.18164036e-240, 3.56496646e-311, -2.82751232e+286,
1.69336097e+127])
这是怎么发生的?纵观通过read
文件对象的内容给
>>> open('myfile', 'rb').read()
b'B$\xf7\xffgP\x81>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\x85U\xef\x82\x1e\xf0d>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>\xb3z\xea\x05]\xcab>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>\x85U\xef\x82\x1e\xf0d>\x85U\xef\x82\x1e\xf0d>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>\xb3z\xea\x05]\xcab>\xb3z\xea\x05]\xcab>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\xb3z\xea\x05]\xcab>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\x85U\xef\x82\x1e\xf0d>\x85U\xef\x82\x1e\xf0d>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x85U\xef\x82\x1e\xf0d>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x85U\xef\x82\x1e\xf0d>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>'
>>> lzma.open('myfile.xz').read()
b'B$\xf7\xffgP\x81>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\x85U\xef\x82\x1e\xf0d>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>\xb3z\xea\x05]\xcab>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>\x85U\xef\x82\x1e\xf0d>\x85U\xef\x82\x1e\xf0d>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>\xb3z\xea\x05]\xcab>\xb3z\xea\x05]\xcab>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\xb3z\xea\x05]\xcab>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\x85U\xef\x82\x1e\xf0d>\x85U\xef\x82\x1e\xf0d>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\xd1\x1e\xae#\xaefd>\xb3z\xea\x05]\xcab>\xd1\x1e\xae#\xaefd>\x1c\xe8l\xc4=\xddc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x85U\xef\x82\x1e\xf0d>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x85U\xef\x82\x1e\xf0d>\xd1\x1e\xae#\xaefd>g\xb1+e\xcdSc>g\xb1+e\xcdSc>\x1c\xe8l\xc4=\xddc>\x1c\xe8l\xc4=\xddc>'
这对我来说很好。该类型似乎正确,以及:
>>> type(data1)
<class 'numpy.ndarray'>
>>> type(data1[0])
<class 'numpy.float64'>
>>> type(data2)
<class 'numpy.ndarray'>
>>> type(data2[0])
<class 'numpy.float64'>
我期待阵列data1
和data2
的含量相等。
感谢您的解决方案/解决方法。我从来没有试过'frombuffer'。 –
很高兴它为你工作:-)我认为这是因为底层数据是字节,但'fromfile'也应该做到这一点: - / –