2016-11-27 97 views
4

我有一个数据帧“东风”,看起来像这样:Python的熊猫数据帧的GroupBy大小根据病情

id date1 date2 
1 11/1/2016 11/1/2016 
1 11/1/2016 11/2/2016 
1 11/1/2016 11/1/2016 
1 11/1/2016 11/2/2016 
1 11/2/2016 11/2/2016 
2 11/1/2016 11/1/2016 
2 11/1/2016 11/2/2016 
2 11/1/2016 11/1/2016 
2 11/2/2016 11/2/2016 
2 11/2/2016 11/2/2016 

我想这样做是为了GROUPBY的ID,然后得到每个ID在该尺寸日期1 = DATE2。结果应该是这样的:

id samedate count 
1 11/1/2016 2 
1 11/2/2016 1 
2 11/1/2016 2 
2 11/2/2016 2 

我已经试过这样:

gb=df.groupby(id').apply(lambda x: x[x.date1== x.date2]['date1'].size()) 

而得到这个错误:

TypeError: 'int' object is not callable 

你肯定会标志中的每个实例,其中日期1和date2相等,然后每个相同的日期计算每个ID的标志,但我必须相信有一个groupby选项。

回答

4

您可以使用boolean indexing,然后再汇总size

df.date1 = pd.to_datetime(df.date1) 
df.date2 = pd.to_datetime(df.date2) 

df = df[df.date1 == df.date2] 
gb=df.groupby(['id', 'date1']).size().reset_index(name='count') 
print (gb) 
    id  date1 count 
0 1 2016-11-01  2 
1 1 2016-11-02  1 
2 2 2016-11-01  2 
3 2 2016-11-02  2 

时序

In [79]: %timeit (df[df.date1 == df.date2].groupby(['id', 'date1']).size().reset_index(name='count')) 
100 loops, best of 3: 3.84 ms per loop 

In [80]: %timeit (df.groupby(['id', 'date1']).apply(lambda x: (x['date1'] == x['date2']).sum()).reset_index()) 
100 loops, best of 3: 7.57 ms per loop 

代码时序

#len df = 10k 
df = pd.concat([df]*1000).reset_index(drop=True) 
#print (df) 

df.date1 = pd.to_datetime(df.date1) 
df.date2 = pd.to_datetime(df.date2) 
+0

感谢您的 时间。这是一个更好的方法。 – Zero

+0

谢谢你的回答,第一个想法与你的答案非常相似。 – jezrael

+0

谢谢。优秀! – clg4

3

你需要组上两列,然后申请检查date1等于date2

In [105]: df.groupby(['id', 'date1']).apply(lambda x: (x['date1'] == x['date2']).sum()) 
Out[105]: 
id date1 
1 11/1/2016 2 
    11/2/2016 1 
2 11/1/2016 2 
    11/2/2016 2 
dtype: int64 
+0

你要去如果你申请的lambda函数对整组比jezrael慢,如果你做的lambda函数内部的布尔比较。 – Boud

+0

感谢您的回答。 ! – clg4