我有一个庞大的数据集有六列(称之为A,B,C,D,E,F),大约有450,000行。我只是试图找到列A
和B
之间的相关性:如何计算R中庞大数据集中两个变量的相关性?
cor(A, B)
和我
[1] NA
作为结果。我能做些什么来解决这个问题?
我有一个庞大的数据集有六列(称之为A,B,C,D,E,F),大约有450,000行。我只是试图找到列A
和B
之间的相关性:如何计算R中庞大数据集中两个变量的相关性?
cor(A, B)
和我
[1] NA
作为结果。我能做些什么来解决这个问题?
尝试。在你的观察中,这将忽略新生。
为了保持统计上的严谨性,您还应该查看数据中缺失的条目数量,并查看随机假设是否存在。
编辑1:看看?cor
以查看use
参数的其他选项。
您可能会考虑在Hmisc软件包中使用rcorr函数。
它速度很快,只包含两两完整的观测值。返回的对象包含一个矩阵
的p值的