4
我有一个分组的DataFrame,我想与应该映射到某些列的函数字典进行聚合。对于单层列,这是直接与groups.agg({'colname': <function>})
。然而,我正在努力使这个工作与多级别的列,我只想参考一个单一的水平。具有多级别列的聚合组
这里是一个例子。
让我们做一些样本数据:
import itertools
import pandas as pd
lev1 = ['foo', 'bar', 'baz']
lev2 = list('abc')
n = 6
df = pd.DataFrame({k: np.random.randn(n) for k in itertools.product(lev1,lev2)},
index=pd.DatetimeIndex(start='2015-01-01', periods=n, freq='11D'))
这看起来像:
bar baz foo
a b c a b c a b c
2015-01-01 -1.11 2.12 -1.00 0.18 0.14 1.24 0.73 0.06 3.66
2015-01-12 -1.43 0.75 0.38 0.04 -0.33 -0.42 1.00 -1.63 -1.35
2015-01-23 0.01 -1.70 -1.39 0.59 -1.10 -1.17 -1.51 -0.54 -1.11
2015-02-03 0.93 0.70 -0.12 1.07 -0.97 -0.45 -0.19 0.11 -0.79
2015-02-14 0.30 0.49 0.60 -0.28 -0.38 1.11 0.15 0.78 -0.58
2015-02-25 -0.26 0.51 0.82 0.05 -1.45 0.14 0.53 -0.33 -1.35
和分组的一个月:
groups = df.groupby(pd.TimeGrouper('MS'))
定义基于顶层部分功能在列中:
funcs = {'bar': np.sum, 'baz': np.mean, 'foo': np.min}
但是,做groups.agg(funcs)
会产生一个KeyError,因为它需要每个级别的密钥,这是有道理的。
这并不工作,例如:
groups.agg({('bar', 'a'): np.mean})
bar
a
2015-01-01 -0.845554
2015-02-01 0.324897
但我不希望指定在第二层的每个关键。所以我在寻找一些会的工作,如:
groups.agg({('bar', slice(None)): np.mean})
但因为slice
不是可哈希不,当然工作,因此不能被放置在一本字典。
一种解决方法是:
def multifunc(group):
func = funcs[group.name[0]]
return func(group)
groups.agg(multifunc)
但是,这不是很可读,也不显得“Pandonic”给我。它也不允许与agg
功能在同一列上具有多种功能。必须有更好的/标准的方式来执行这样的任务,它不是非常罕见的。
我开了一个问题来讨论,如果我们想使这更容易:HTTPS: //github.com/pydata/pandas/issues/9585但是,我不确定什么是最好的界面。我想'{'bar':np.sum,'baz':np.mean,'foo':np.min}'可以工作吗?欢迎随时加入! – joris 2015-03-04 09:27:11
谢谢Joris!有关这方面的讨论肯定会很有趣。 Unutbu表明,总是有解决方法。但这意味着从Pandas界面退后一步,简单的界面是Pandas如此惊人的合作的很大一部分。 – 2015-03-04 09:57:34