2011-08-29 61 views
1

下面是一个例子数据帧:如何识别和汇总来自数据框中匹配组的数据集?

set.seed(0) 
x1 <- c(1, 1, 1, 1, 1, 2, 2, 2, 2) 
x2 <- c(1, 1, 0, 0, 0, 1, 1, 1, 1) 
x3 <- c(1, 1, 2, 2, 4, 1, 1, 2, 1) 
n <- c(1, 1, 1, 5, 5, 1, 1, 1, 1) 
y <- rnorm(9) 

mydf <- data.frame(x1, x2, x3, n, y) 

我想做的是

  1. 识别与行n = 1且共享的(X1,X2,X3)
  2. 相同的值为每个子集返回一行,其中y = mean(y)和n = length(y)
  3. 保持其他行相同。

例如,新的数据帧将

x1 <- c(1,   1, 1, 1, 2,     2) 
x2 <- c(1,   0, 0, 0, 1,     1) 
x3 <- c(1,   2, 2, 4, 1,     2) 
n <- c(2,   1, 5, 5, 3,     1) 
y <- c(mean(y[1:2]), y[3], y[4], y[5], mean(y[c(6:7,9)]), y[8]) 

newdf <- data.frame(x1, x2, x3, n, y) 

我可以用条件和循环想出解决办法,但我更愿意学习更优雅的方式来做到这一点。

回答

4

所谓“在其他列相同的值”,我想你意味着每个子集是由x1在每个子集的行的相同的值定义的,而不是x1等于x2。感谢这个例子,看看你的意思。

library("plyr") 

要获得第一和第二部分

ddply(mydf[mydf$n==1,], .(x1, x2, x3), summarise, n = length(y), y = mean(y)) 

这可能是rbindmydf部分-ed哪里n!=1让你说什么

rbind(
    ddply(mydf[mydf$n==1,], .(x1, x2, x3), summarise, n = length(y), y = mean(y)), 
    mydf[mydf$n!=1,] 
) 

这并不一定与您列出的订单相同。如果这真的很重要,可以添加一些辅助排序变量。

mydf$order = seq(length=nrow(mydf)) 
newdf <- rbind(
    ddply(mydf[mydf$n==1,], .(x1, x2, x3), summarise, 
    n = length(y), y = mean(y), order=min(order)), 
    mydf[mydf$n!=1,] 
) 
newdf <- newdf[order(newdf$order),] 
newdf$order <- NULL 
+0

工作很好。谢谢。对于模棱两可感到抱歉。 – Abe