索引编号是否在测试数据帧相等方面很重要?我有两个完全相同的数据和列相同的数据框。唯一的区别是每行的索引号是不同的,等于方法返回一个False。我怎样才能解决这个问题?这里是我的数据帧熊猫DataFrame相等 - 索引编号
A B
0 87 54
1 87 75
2 87 22
3 87 69
A B
418 87 69
107 87 54
108 87 75
250 87 22
索引编号是否在测试数据帧相等方面很重要?我有两个完全相同的数据和列相同的数据框。唯一的区别是每行的索引号是不同的,等于方法返回一个False。我怎样才能解决这个问题?这里是我的数据帧熊猫DataFrame相等 - 索引编号
A B
0 87 54
1 87 75
2 87 22
3 87 69
A B
418 87 69
107 87 54
108 87 75
250 87 22
您可以使用np.array_equal
检查值,但是顺序是重要的,所以在你的榜样,你必须通过索引第一排序。
In [11]: df1
Out[11]:
A B
0 87 54
1 87 75
2 87 22
3 87 69
In [12]: df2
Out[12]:
A B
418 87 69
107 87 54
108 87 75
250 87 22
In [13]: df3 = df2.sort()
In [14]: df3
Out[14]:
A B
107 87 54
108 87 75
250 87 22
418 87 69
In [15]: np.array_equal(df1, df3)
Out[15]: True
注:不能比较DF1和DF2,因为他们有不同的指标:
In [21]: df1 == df2
ValueError: Can only compare identically-labeled DataFrame object
您可以重置索引,但要知道一个例外可以提高该原因:
In [22]: df3.reset_index(drop=True)
Out[22]:
A B
0 87 54
1 87 75
2 87 22
3 87 69
In [23]: np.all(df1 == df3.reset_index(drop=True))
Out[23]: True
另一种选择是有一个尝试,除块周围assert_frame_equals
:
In [24]: pd.util.testing.assert_frame_equal(df1, df3.reset_index(drop=True))
如在此related answer。
杰夫指出,你可以使用.equals,它做到这一点:
In [25]: df1.equals(df3.reset_index(drop=True))
Out[25]: True
[熊猫DataFrames与NaN的比较平等(的可能的复制http://stackoverflow.com/questions/19322506/pandas- dataframes-with-nans-equality-comparison) – hellpanderrr