此问题扩展了this的问题,但现在我想为单独的群组添加残差。将预测残差附加到熊猫数据框 - 按群组
那么,当你想为单独的组运行回归时如何追加残差?
这里是数据帧:
df = pd.DataFrame({'gp': [1,1,1,1,1,2,2,2,2,2],
'x1': [3.17, 4.76, 4.17, 8.70, 11.45, 3.17, 4.76, 4.17, 8.70, 11.45],
'x2': [23, 26, 73, 72, 16, 26, 73, 72, 16, 25],
'y': [880.37, 716.20, 974.79, 322.80, 1054.25, 980.37, 816.20, 1074.79, 522.80, 1254.25]},
index=np.arange(10, 30, 2))
现在,我想运行的两个组(GP)分开的回归,并在一个单独的列追加的残差。
我尝试这样的代码,但它仅填充最后回归组的残差(GP = 2):
import numpy as np
import pandas as pd
import statsmodels.formula.api as sm
def groupreg(df, regmodel):
groups = df.groupby('gp')
for item, group in groups:
df['residual'] = sm.ols(formula=regmodel, data=group).fit().resid
return (df)
regmodel = 'y ~ x1 + x2'
df = groupreg(df,regmodel)
我发现一种方法来破解该问题,但是代码是长烯看起来低效:
def groupreg2(df, regmodel):
groups = df.groupby('gp')
i = 0
resname='residual'
for item, group in groups:
data = group.copy()
data[resname] = sm.ols(formula=regmodel, data=data).fit().resid
if i == 0:
i = 1
dout = data[resname].copy()
else:
dout = dout.append(data[resname].copy())
df = pd.concat([df,dout],axis=1)
return (df)
df = groupreg2(df,regmodel)
有什么建议要改进?
在我的Python你的建议不工作:这是执行代码时我收到:值是尝试将被设置在来自DataFrame的切片的副本上。 尝试使用.loc [row_indexer,col_indexer] =值改为 –