我想围绕整个列的平均值中心值。我需要为整个(大)数据框完成此操作,所以首先我尝试了colMeans。使用不同的函数时得到不同的答案为相同的数学,不知道为什么
colMeans(data, na.rm = TRUE)
由此,我得到这样的5.567为我的数据集的第一列的答案。不过,我想仔细检查一下。当我使用平均函数 mean(data$first_column, na.rm = TRUE)
时,我得到了8.466。当我计算Excel表中的平均值时,我得到了6.5左右的数据。
我一直无法用生成的数据集重新创建这个问题,所以这里是一个 link to a GoogleDoc with the first two columns of my data set。
最终目标是围绕数据集中几乎每一列的均值的中心值,并且我假设我会用lapply()来做到这一点。但在我这样做之前,我想了解为什么我会得到这么多不同的平均值。我认为它与NAs或什么有关,但我不太明白。
在此先感谢您的帮助。
我无法重新创建您的错误。我下载了谷歌文档作为CSV文件,并得到了使用colmeans和mean的6.502439。 –
尝试在数据框上使用'complete.cases()',以便所有的NA都被删除。 'data < - data [complete.cases(data),]' – sweetmusicality
我同意@IanWesley。问题不可重现; 6.502439是'Irritability'的平均值 –