2016-08-02 44 views
2

我试图建立一个像下面一个使用熊猫的数据框,其中如果当天有间隔1和3,Asum只会得到一个值。最接近我得到的东西正在使用这个:Groupby与多索引

df['ASum']=df.groupby(level=['DateTime'])['A'].sum() 

但是,当我运行它,它会返回NaN一路下来ASUM。任何关于如何做到这一点的想法都会受到赞赏

     A   B  ASum 
DateTime INT                 
2016-07-05 3  4700.0  4700.0 0 
2016-07-06 1  5906.0  6830.0 0 
      3  1090.0  1090.0 6996 
2016-07-07 1  7969.0  5273.0 0 
      3  1971.0  1971.0 9940 
2016-07-08 1  3296.0  2764.0 0 
      3  1179.0  1179.0 4475 
2016-07-11 1  4993.0  5798.0 0 
      3  1325.0  1325.0 6318 

回答

3

这是一个基于摧毁INT级别的解决方案,将总和和堆叠回来。

import pandas as pd 

midx = pd.MultiIndex(levels=[['2016-07-05', '2016-07-06', '2016-07-07', 
           '2016-07-08', '2016-07-11'], [1, 3]], 
        labels=[[0, 1, 1, 2, 2, 3, 3, 4, 4], 
          [1, 0, 1, 0, 1, 0, 1, 0, 1]], 
        names=['DateTime', 'INT']) 
df = pd.DataFrame({'A': [4700.0, 5906.0, 1090.0, 7969.0, 1971.0, 
         3296.0, 1179.0, 4993.0, 1325.0], 
        'B': [4700.0, 6830.0, 1090.0, 5273.0, 1971.0, 
         2764.0, 1179.0, 5798.0, 1325.0]}, 
       index=midx) 

df = df.unstack(level='INT') 
df[('Asum', 3)] = df['A'].sum(axis=1, skipna=False) 
df = df.stack(level='INT').fillna(0) 
print(df) 

输出:

     A  B Asum 
DateTime INT       
2016-07-05 3 4700.0 4700.0  0.0 
2016-07-06 1 5906.0 6830.0  0.0 
      3 1090.0 1090.0 6996.0 
2016-07-07 1 7969.0 5273.0  0.0 
      3 1971.0 1971.0 9940.0 
2016-07-08 1 3296.0 2764.0  0.0 
      3 1179.0 1179.0 4475.0 
2016-07-11 1 4993.0 5798.0  0.0 
      3 1325.0 1325.0 6318.0 
+0

谢谢阿尔贝托!这工作很好!我一直在试图让它与.pct_change一起工作,但还没有运气。 – BROB1

+0

如果您无法完成工作,您可以随时发布其他问题... –

0
df['ASum'] = 0 # the new column MUST be defined ahead 

for idx,data in df.groupby(level=['DateTime']): 
    if all(x in data.index.get_level_values('INT') for x in [1,3]): 
     df.loc[idx,'ASum'].iloc[-1] = data['A'].sum() # adds the sum to the last row in the group only 

导致:

    A ASum 
DateTime INT    
2016-07-05 3 4700  0 
2016-07-06 1 5906  0 
      3 1090 6996 
2016-07-07 1 7967  0 
      3 1971 9938 
2016-07-08 1 3296  0 
      3  119 3415 
2016-07-11 1 4993  0 
      3 1325 6318 

或者,如果你想的和出现在那里INT==3(不一定在最后一行):

df['ASum'] = 0 

for idx,data in df.groupby(level=['DateTime']): 
    if all(x in data.index.get_level_values('INT') for x in [1,3]): 
     df.loc[(idx,3),'ASum'] = data['A'].sum() # << changed this line only 

(直到我会想出一些综合解决方案)