2015-10-19 122 views
1

索引编号是否在测试数据帧相等方面很重要?我有两个完全相同的数据和列相同的数据框。唯一的区别是每行的索引号是不同的,等于方法返回一个False。我怎样才能解决这个问题?这里是我的数据帧熊猫DataFrame相等 - 索引编号

A B 
0 87 54 
1 87 75 
2 87 22 
3 87 69 

    A B 
418 87 69 
107 87 54 
108 87 75 
250 87 22 
+0

[熊猫DataFrames与NaN的比较平等(的可能的复制http://stackoverflow.com/questions/19322506/pandas- dataframes-with-nans-equality-comparison) – hellpanderrr

回答

1

您可以使用np.array_equal检查值,但是顺序是重要的,所以在你的榜样,你必须通过索引第一排序。

In [11]: df1 
Out[11]: 
    A B 
0 87 54 
1 87 75 
2 87 22 
3 87 69 

In [12]: df2 
Out[12]: 
     A B 
418 87 69 
107 87 54 
108 87 75 
250 87 22 

In [13]: df3 = df2.sort() 

In [14]: df3 
Out[14]: 
     A B 
107 87 54 
108 87 75 
250 87 22 
418 87 69 

In [15]: np.array_equal(df1, df3) 
Out[15]: True 

注:不能比较DF1和DF2,因为他们有不同的指标:

In [21]: df1 == df2 
ValueError: Can only compare identically-labeled DataFrame object 

您可以重置索引,但要知道一个例外可以提高该原因:

In [22]: df3.reset_index(drop=True) 
Out[22]: 
    A B 
0 87 54 
1 87 75 
2 87 22 
3 87 69 

In [23]: np.all(df1 == df3.reset_index(drop=True)) 
Out[23]: True 

另一种选择是有一个尝试,除块周围assert_frame_equals

In [24]: pd.util.testing.assert_frame_equal(df1, df3.reset_index(drop=True)) 

如在此related answer

杰夫指出,你可以使用.equals,它做到这一点:

In [25]: df1.equals(df3.reset_index(drop=True)) 
Out[25]: True 
+0

check_names = False由于某种原因而不起作用。排序想法很好!我正在尝试它们,并会发布更新(并接受您的回答) – karmanaut

+0

'check_names'会检查我认为的索引名称,因为您没有索引名称,所以不应该影响您的案例。 –

+0

哦,你是否想在重置索引之后使用断言?没有删除索引,它不起作用。 – karmanaut