2016-08-23 135 views
1

这里是定义如下一个大熊猫数据帧:如何做一些像pandas中的groupby()和value_counts()这样的操作?

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo', 'foo'], 
        'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three', 'two'], 
        'C' : [0, 1, 0, 1, 1, 2, 0, 2, 1]}) 
>>> df 
    A  B C 
0 foo one 0 
1 bar one 1 
2 foo two 0 
3 bar three 1 
4 foo two 1 
5 bar two 2 
6 foo one 0 
7 foo three 2 
8 foo two 1 

我想要做两次手术。

首先,按列AB将数据帧分组。因此,在这种情况下获得6个组。此操作与pandas中的groupby()函数类似。

然后,对于每个组,执行列C的计数操作,因为在这种情况下它可以是三个不同的值(0,1和2)。此操作与pandas中的value_counts()函数类似。

最后,我想要一个像这样的新数据框。

 A  B C_value0 C_value1 C_value2 
0 foo one   2   0   0 
1 foo two   1   2   0 
2 foo three   0   0   1 
3 bar one   0   1   0 
4 bar two   0   0   1 
5 bar three   0   1   0 

有人能告诉我如何做到这一点吗?谢谢!

回答

1

您可以使用groupby与聚集size,然后通过fillna更换NaN0,(在pandas0.18.0新)转换为intastypeadd_prefixreset_index和最后rename_axis

print (df.groupby(['A','B', 'C'])['C'].size() 
             .unstack() 
             .fillna(0) 
             .astype(int) 
             .add_prefix('C_value') 
             .reset_index() 
             .rename_axis(None, axis=1)) 

    A  B C_value0 C_value1 C_value2 
0 bar one   0   1   0 
1 bar three   0   1   0 
2 bar two   0   0   1 
3 foo one   2   0   0 
4 foo three   0   0   1 
5 foo two   1   2   0 

crosstab另一种解决方案:

print (pd.crosstab([df.A, df.B], df.C) 
     .add_prefix('C_value') 
     .reset_index() 
     .rename_axis(None, axis=1)) 

    A  B C_value0 C_value1 C_value2 
0 bar one   0   1   0 
1 bar three   0   1   0 
2 bar two   0   0   1 
3 foo one   2   0   0 
4 foo three   0   0   1 
5 foo two   1   2   0 
+0

很好的解决方案!非常感谢你! – o0Helloworld0o

+0

很高兴能为您提供帮助。请不要忘记[接受](http://meta.stackexchange.com/a/5235/295067)它。谢谢。 – jezrael

+0

当我运行你的代码时,出现了一个错误。该错误说“TypeError:必须通过索引来重命名”。然后我删除“.rename_axis(None,axis = 1)”,它可以成功运行。 – o0Helloworld0o