2017-05-26 71 views
1

首次进口:散列熊猫据帧中断

import pandas as pd 
import numpy as np 
import hashlib 

接下来,考虑以下因素:

np.random.seed(42) 
arr = np.random.choice([41, 43, 42], size=(3,3)) 
df = pd.DataFrame(arr) 
print(arr) 
print(df) 
print(hashlib.sha256(arr.tobytes()).hexdigest()) 
print(hashlib.sha256(df.values.tobytes()).hexdigest()) 

这个片段的多次执行产生相同的哈希值的两倍所有的时间:ddfee4572d380bef86d3ebe3cb7bfa7c68b7744f55f67f4e1ca5f6872c2c9ba1

然而,如果我们考虑以下因素:

np.random.seed(42) 
arr = np.random.choice(['foo', 'bar', 42], size=(3,3)) 
df = pd.DataFrame(arr) 
print(arr) 
print(df) 
print(hashlib.sha256(arr.tobytes()).hexdigest()) 
print(hashlib.sha256(df.values.tobytes()).hexdigest()) 

有在现在的数据字符串。对于不同的评估,arr的散列值是固定的(52db9328682317c44370b8186a5c6bae75f2a94c9d0d5b24d61f602857acd3de),但每次更改pandas.DataFrame

围绕它的任何pythonic方式?没有Pythonic?

编辑:相关链接:

回答

0

根据我,当你使用字符串作为您的单元格的值。数据帧类型是对象

df.dtypes 

表明。 这就是为什么你每次都得到不同的散列。

0

天真的解决方法是获取整个数据框的字符串表示并将其散列。特别是以下任何一项都可以工作:

print(hashlib.sha256(df.to_json().encode()).hexdigest()) 
print(hashlib.sha256(df.to_csv().encode()).hexdigest()) 

当然,这对于大型数据框来说会很长。

尽管如此,它仍然是pd.DataFrame(arr).values != arr,这是违反直觉的。

看到一个摘要:https://gist.github.com/drorata/bfc5d956c4fb928dcc77510a33009691

+0

[博客文章概要](http://drorata.github.io/posts/2017/May/26/when-trying-to-hash-a-data-frame/ ) – Dror