1
我使用Pandas读取csv文件。然后,我检查,看是否有使用下面的代码数据中的任何重复的行:查找pandas中groupby的副本
import pandas as pd
df= pd.read_csv("data.csv", na_values=["", " ", "-"])
print df.shape
>> (71644, 15)
print df.drop_duplicates().shape
>> (31171, 15)
我发现有一些重复的行,所以我想看看这行出现一次以上:
data_groups = df.groupby(df.columns.tolist())
size = data_groups.size()
size[size > 1]
这样做我得到Series([], dtype: int64)
。
Futhermore,我能找到重复的行执行以下操作:
duplicates = df[(df.duplicated() == True)]
print duplicates.shape
>> (40473, 15)
所以df.drop_duplicates()
和df[(df.duplicated() == True)]
显示,有重复的行,但groupby
没有。
我的数据包含字符串,整数,浮点数和南。
我误解了我上面提到的函数或其他事情发生的事情吗?