我正在使用37个变量运行回归,并且我使用stepAIC
来执行模型选择。我不想要一个预测模型。我只想找出哪些变数具有最好的解释力。如何将具体条件添加到stepAIC
我当前的代码看起来像:
fitObject <- lm(mydata)
DEP.select <- stepAIC(fitObject, direction = 'both', scope= list(lower = ~AUC), trace = F, k = log(obs))
# DEP is my dependent variable, and AUC is an independent variable I was want to have in my model.
的问题是,我的很多变量有较高的相关性,结果stepAIC
给了我一些含有这些高度相关的变量。请注意,我已经在模型中强制AUC,多重共线性是一个问题,特别是当这些变量与AUC高度相关时,在模型中选择。
有没有办法在函数中指定一些相关系数的阈值或p值?
或者其他可以解决我的问题的方法的任何意见都是值得欢迎的。
谢谢!
你甚至没有在lm中指定一个模型? – rawr
这是为了回归数据框第一个变量上的所有变量。与fitObject < - lm(mydata [,1]〜。,data = mydata)相同' – lareven
我明白,但它很容易出现各种不需要的东西。但要回答你的问题,不,你正在使用AIC作为模型选择,所以pvalues是无关紧要的。仅仅因为一些变量是共线的并不意味着它们是无用的。你的目标是什么?你是否在寻找预测模型?你是否知道模型中应该包含哪些变量,即使它们的p值不够“够好”?这些机械模型选择算法通常不是很好 – rawr