2017-10-07 50 views
4

我有一个多指标数据帧是这样的:如何将多索引数据帧的子集存储在新的数据框中?

import pandas as pd 
import numpy as np 


df = pd.DataFrame({'ind1': list('aaaaaaaaabbbbbbbbb'), 
        'ind2': list('cccdddeeecccdddeee'), 
        'ind3': list(range(3))*6, 
        'val1': list(range(100, 118)), 
        'val2': list(range(70, 88))}) 

df_mult = df.set_index(['ind1', 'ind2', 'ind3']) 

       val1 val2 
ind1 ind2 ind3    
a c 0  100 70 
      1  101 71 
      2  102 72 
    d 0  103 73 
      1  104 74 
      2  105 75 
    e 0  106 76 
      1  107 77 
      2  108 78 
b c 0  109 79 
      1  110 80 
      2  111 81 
    d 0  112 82 
      1  113 83 
      2  114 84 
    e 0  115 85 
      1  116 86 
      2  117 87 

我现在可以使用.loc这样

df_subs = df_mult.loc['a', ['c', 'd'], :] 

现在给人的预期

   val1 val2 
ind1 ind2 ind3    
a c 0  100 70 
      1  101 71 
      2  102 72 
    d 0  103 73 
      1  104 74 
      2  105 75 

如果我选择它的一个子集想要再次选择df_subs的子集,例如

df_subs.loc['a', 'c', :] 

作品并给出

 val1 val2 
ind3    
0  100 70 
1  101 71 
2  102 72 

然而

df_subs.loc[:, 'c', :] 

失败,并给出了一个错误

KeyError: 'the label [c] is not in the [columns]'

为什么会失败?

编辑

本来,我在这个职位上工作两个问题。我把它分成两部分,第二个问题可以找到here

+0

https://pandas.pydata.org/pandas-docs/stable/advanced.html为什么不使用'slice'或'IndexSlice' – Wen

+0

@Wen:当然,可能会有更好的选择,但我仍然想了解上述尝试失败的原因。如果这些尝试完全错误,那么很高兴看到正确的做法,即可行的替代方案。 – Cleb

+0

@JohnE:好的,这已经很好了。我仍然需要弄清楚什么时候我不得不使用'IndexSlice'。但似乎它没有改变问题1的任何内容:'df_mult.loc [pd.IndexSlice ['a',['c','d'],:],:]。index'仍然显示出'a'和' b'在0级;任何想法为什么? – Cleb

回答

2

通过使用IndexSlice

idx = pd.IndexSlice 
df_subs.loc[idx[:, 'c',:],:] 
Out[159]: 
       val1 val2 
ind1 ind2 ind3    
a c 0  100 70 
      1  101 71 
      2  102 72 

,或者需要特定的片上的行或列

df_subs.loc(axis=0)[:, 'c', :] 
Out[196]: 
       val1 val2 
ind1 ind2 ind3    
a c 0  100 70 
      1  101 71 
      2  102 72 

之所以.loc[:, 'c', :]不能工作:

您应指定所有.loc说明符中的轴,表示索引和列的索引器。有一些不明确的情况,其中通过的索引器可能被错误地解释为索引两个轴,而不是针对行的MuliIndex。

Link1

Link2

+0

好吧,很高兴知道一个可行的替代方案(upvoted)。但是,你知道为什么'.loc'版本不工作吗?同样''df_subs.loc [idx [:,'c',:],:]。index'在0级仍然有'a'和'b';任何想法为什么? – Cleb

+0

@Cleb这是一个讨论git。你可以检查我提供的两个链接〜:-)是更安全的,你可以只使用slice或IndexSlice :) – Wen

+0

有趣的阅读,谢谢。我还编辑了关于问题1的问题;对此有何评论? (现在我不确定这是否确实是相关的,所以我应该把它分解成两个我认为的问题)。 – Cleb

1

显然,使用.loc可能持续的指数在其原来的形式,直到它们被重置。使用.copy()来避免原始数据帧的任何视图仍然存在多索引值。

df_subs = df_mult.loc['a', ['c', 'd'], :].copy() 

print(df_subs.index) 
# MultiIndex(levels=[['a', 'b'], ['c', 'd', 'e'], [0, 1, 2]], 
#   labels=[[0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]], 
#   names=['ind1', 'ind2', 'ind3']) 

此外,通过值滤波仍然保留multindex值:

df_subs = df_mult[df_mult['val1'] <= 105] 

print(df_subs) 
#     val1 val2 
# ind1 ind2 ind3    
# a c 0  100 70 
#   1  101 71 
#   2  102 72 
#  d 0  103 73 
#   1  104 74 
#   2  105 75 

print(df_subs.index) 
# MultiIndex(levels=[['a', 'b'], ['c', 'd', 'e'], [0, 1, 2]], 
#   labels=[[0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]], 
#   names=['ind1', 'ind2', 'ind3']) 

因此,考虑手动复位指数,按照你原来的分配

df_subs = df_mult.loc['a', ['c', 'd'], :].reset_index() 

df_subs = df_subs.set_index(['ind1', 'ind2', 'ind3']) 

print(df_subs.index) 
# MultiIndex(levels=[['a'], ['c', 'd'], [0, 1, 2]], 
#   labels=[[0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]], 
#   names=['ind1', 'ind2', 'ind3']) 

最后,最后.loc分配(# 2),至少提供可能要求的第一个索引:

df_subs2 = df_subs.loc['a', 'c', :] 
#  val1 val2 
# ind3    
# 0  100 70 
# 1  101 71 
# 2  102 72