2016-11-14 128 views
2

跟踪所有模拟结果的一个参数来看,我创建大熊猫命名dfParRun一个MultIndex数据框如下:切片大熊猫多指标数据帧

import pandas as pd 
import numpy as np 
import itertools 
limOpt = [0.1,1,10] 
reimbOpt = ['Cash','Time'] 
xOpt = [0.1, .02, .03, .04, .05, .06, .07, .08] 
zOpt = [1,5n10] 
arrays = [limOpt, reimbOpt, xOpt, zOpt] 
parameters = list(itertools.product(*arrays)) 
nPar = len(parameters) 

variables = ['X', 'Y', 'Z'] 
nVar = len(variables) 
index = pd.MultiIndex.from_tuples(parameters, names=['lim', 'reimb', 'xMax', 'zMax']) 

dfParRun = pd.DataFrame(np.random.rand((nPar, nVar)), index=index, columns=variables) 

分析我的参数来看,我想切片这个数据帧,但这似乎是一个负担。例如,我想有大于0.5,LIM等于10.在这一刻XMAX所有的结果,唯一的工作方法,我发现是:

df = dfParRun.reset_index() 
df.loc[(df.xMax>0.5) & (df.lim==10)] 

,我不知道是否有一种方法,无需重新设置指数DataFrame的?

回答

2

选项1
使用pd.IndexSlice
注意:需要sort_index

dfParRun.sort_index().loc[pd.IndexSlice[10, :, .0500001:, :]] 

enter image description here

选项2
ù SE您df有后reset_index

df.query('xMax > 0.05 & lim == 10') 

enter image description here


设置

import pandas as pd 
import numpy as np 
import itertools 
limOpt = [0.1,1,10] 
reimbOpt = ['Cash','Time'] 
xOpt = [0.1, .02, .03, .04, .05, .06, .07, .08] 
zOpt = [1, 5, 10] 
arrays = [limOpt, reimbOpt, xOpt, zOpt] 
parameters = list(itertools.product(*arrays)) 
nPar = len(parameters) 

variables = ['X', 'Y', 'Z'] 
nVar = len(variables) 
index = pd.MultiIndex.from_tuples(parameters, names=['lim', 'reimb', 'xMax', 'zMax']) 

dfParRun = pd.DataFrame(np.random.rand(*(nPar, nVar)), index=index, columns=variables) 
df = dfParRun.reset_index() 
+0

THX!似乎对索引进行排序是我对如何使用DataFrame的理解所缺少的。没有排序,该功能出错。 –