我有大约90个变量存储在数据[2-90]中。我怀疑其中4个将与数据有抛物线般的相关性[1]。我想确定哪些具有相关性。有没有简单快捷的方法来做到这一点?在R中找到非线性相关关系
我试图建立这样一个模型(我可以在一个循环为每个变量i = 2:90做):
y <- data$AvgRating
x <- data$Hamming.distance
x2 <- x^2
quadratic.model = lm(y ~ x + x2)
然后看看R^2 /系数,以得到一个关联的想法。有没有更好的方法来做到这一点?
也许R可以用90个变量建立一个回归模型,并选择那些重要的回归模型?这将以任何可能的方式?我可以在JMP中进行线性回归,但我不确定我可以用R对所有变量进行非线性回归。因此,我正在手动尝试查看是否可以预先查看哪些关联了。如果有一个函数用于这个功能将会很有帮助。
'data'的结构是什么?它是一个向量列表吗?所有的矢量长度是否相同? –
它们的长度都一样。我用 data = read.csv(“file”,header = TRUE)读入它们。我认为它必须处理标题,我改变了问题以反映工作代码。 – dorien
如果'data'是'data.frame',那么'data [1]'给你一个'data.frame'列,而'lm'需要一个向量。使用'data [[1]]来获得向量。 – snaut