2011-06-13 109 views
1

我有一个数据帧如下:Pearson相关

x <- data.frame(Name=c("a", "b","c", "d", "e"),A=(1:5), B=(2:6), C=(7:11), D=c(1,1,1,1,1)) 

我想包括的所有皮尔森系数对B,A对C,A对d,A对E,B Vs的一个数据帧,b对c,b对d,b对e ....等(不包括自我比较,即aa,bb等)。

为了话,我想改变下列数据帧

  A B C D 
a 1 2 7 1 
b 2 3 8 1 
c 3 4 9 1 
d 4 5 10 1 
e 5 6 11 1 

一个结果数据帧像这样

a b 0.989143436 
a c 0.963282002 
a d 0.93048421 
a e 0.89585579 
b c 0.9922798 
b d 0.974216034 
b e 0.951427811 
c d 0.994675789 
c e 0.982264673 
d e 0.996357429 

请好心指示这样做的有效方式。

编辑

感谢Michaelv2的帮助。

基于建议的代码,我发现的结果如下:

X1 X2 value 
1 A A  1 
2 B A  1 
3 C A  1 
4 D A NA 
5 A B  1 
6 B B  1 
7 C B  1 
8 D B NA 
9 A C  1 
10 B C  1 
11 C C  1 
12 D C NA 
13 A D NA 
14 B D NA 
15 C D NA 
16 D D  1 

错误消息是“ 警告消息: 在COR(X [2:5],方法= ”皮尔森“ ):标准偏差为零“

在我看来,我可能误用了代码,你能否请进一步指示如何进一步解决这个问题?谢谢。

回答

3

您可以使用类似以下内容:

require(reshape) 

y <- as.data.frame(t(x[2:5]), stringsAsFactors=FALSE) 
colnames(y) <- x[[1]] 

yrho <- melt(cor(y, method="pearson")) 
subset(yrho, yrho$X1 != yrho$X2) 

结果:

X1 X2  value 
2 b a 0.9891434 
3 c a 0.9632820 
4 d a 0.9304842 
5 e a 0.8958558 
6 a b 0.9891434 
8 c b 0.9922798 
9 d b 0.9742160 
10 e b 0.9514278 
11 a c 0.9632820 
12 b c 0.9922798 
14 d c 0.9946758 
15 e c 0.9822647 
16 a d 0.9304842 
17 b d 0.9742160 
18 c d 0.9946758 
20 e d 0.9963574 
21 a e 0.8958558 
22 b e 0.9514278 
23 c e 0.9822647 
24 d e 0.9963574 
+0

嗯,行标签可能是行标签,就没有必要忽略他们,那么。另外,OP要求行 - 行相关,而不是列 - 列(但一个't'将完成这项工作)。 – mbq 2011-06-13 07:55:55

+0

从技术上讲,我省略了数据框的第一列(一个字符或因子向量,取决于您的设置),而不是行标签,但是您对行相关性非常正确。感谢您指出了这一点。 – michaelv2 2011-06-13 10:15:03