如何删除重复项，但保留第一个实例和空白单元格中的重复项在熊猫？

我有一个熊猫DataFrame，我正在做一个groupby（['target']）。count（）。这工作正常。然而，对于每个组，我想要的一件事是ID列中唯一元素的数量。如何删除重复项，但保留第一个实例和空白单元格中的重复项在熊猫？

我想要做的是，对于ID列，除了任何ID值的第一个副本（ID对于组是唯一的，因此我不必担心这个问题），将其全部清空。然后，groupby（）。count（）会给我每个组中唯一ID的数量......但我不知道该怎么做。

或者你可以使用['.nunique（）']（http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.nunique.html）。 –

这给了我作为一个整体独特的事物的数量。不是每个组。我需要每组 –

nunique也定义在groupby对象上。你可以做'df.groupby（'target'）['ID']。nunique（）' – ayhan

如果您想按照您所描述的方式进行操作，DataFrame.duplicated()方法适用于此处。它可以返回一个Series，其中第一个ID是False，其余的是True。然后，您可以将此作为掩码将重复的ID设置为空。

2016-09-27 19:23:57 scomes

回答