2017-07-06 69 views
0

我需要从数据集中删除重复的行。基本上,我应该执行删除数据框python的重复行

proc sort data=mydata noduprecs dupout=mydata_dup;run; 

我需要删除重复,以及保存在单独的dataframe那些重复的行。我怎样才能做到这一点?

回答

0

假设你的数据集是一个熊猫数据框。

去除重复行:

data = data.drop_duplicates() 

要选择所有重复的行:

dup = data.ix[data.duplicated(), :] 

希望它能帮助。

+0

是的,它帮助。非常感谢 ! – Anu