可以使用cumcount
通过A
在A
列计数的重复,然后sort_values
第一(在没有必要的样品,在真实数据也许很重要),然后由C
。最后由drop
删除列C
:
df['C'] = df.groupby('A')['A'].cumcount()
df.sort_values(by=['C', 'A'], inplace=True)
print (df)
A B C
0 r1 0 0
2 r2 2 0
4 r3 4 0
1 r1 1 1
3 r2 3 1
5 r3 5 1
df.drop('C', axis=1, inplace=True)
print (df)
A B
0 r1 0
2 r2 2
4 r3 4
1 r1 1
3 r2 3
5 r3 5
时序:
小DF(len(df)=6
)
In [26]: %timeit (jez(df))
1000 loops, best of 3: 2 ms per loop
In [27]: %timeit (boud(df1))
100 loops, best of 3: 2.52 ms per loop
大DF(len(df)=6000
)
In [23]: %timeit (jez(df))
100 loops, best of 3: 3.44 ms per loop
In [28]: %timeit (boud(df1))
100 loops, best of 3: 2.52 ms per loop
代码时间:
df = pd.concat([df]*1000).reset_index(drop=True)
df1 = df.copy()
def jez(df):
df['C'] = df.groupby('A')['A'].cumcount()
df.sort_values(by=['C', 'A'], inplace=True)
df.drop('C', axis=1, inplace=True)
return (df)
def boud(df):
df['C'] = df.groupby('A')['B'].rank()
df = df.sort_values(['C', 'A'])
df.drop('C', axis=1, inplace=True)
return (df)
100 loops, best of 3: 4.29 ms per loop
我根据标题中提到的重复项目采取OP问题。编辑该帖子,将您的宝贵意见考虑在内。谢谢 – Boud
超级,你的第二个解决方案现在可以很好地工作(但不幸的是,它更慢。) – jezrael
谢谢,布德。学习了一个非常有用的方法'rank'。然而,在我真正的问题中,“B”列实际上不是数字,所以我不能在该列上使用“rank”。我应该说,我的道歉。 – Xer