2013-04-24 75 views
4

我有一个数据框,我想添加另一列,这是涉及3个其他列的计算结果。我现在使用的方法似乎很慢。有没有更好的方法来做同样的事情?这是我正在使用的方法。R:在数据帧的多列上执行行计算的最快方法

library(bitops) 

GetRes<-function(A, B, C){ 
    tagU <- bitShiftR((A*C), 4) 
    tagV <- bitShiftR(B, 2) 

    x<-tagU %% 2 
    y<-tagV %% 4 

    res<-(2*x + y) %% 4 
    return(res) 
} 

df <- data.frame(id=letters[1:3],val0=1:3,val1=4:6,val2=7:9) 
apply(df, 1, function(x) GetRes(x[2], x[3], x[4])) 

我的数据帧非常大,并且需要很长时间才能完成此计算。有人建议我做得更好吗?

谢谢。

回答

3

一切比你就可以选择任何其他替代快得多。你可以叫这个...

with(df, GetRes(val0, val1, val2)) 

或本

GetRes(df$val0, df$val1, df$val2) 

或本

GetRes(df[,2], df[,3], df[,4]) 
+1

+1,我不知道bitShiftL是矢量化函数 – 2013-04-24 06:54:24

7

尝试mapply

mapply(GetRes, df[,2], df[,3], df[,4]) 

如果你让我们知道这包bitShiftR是,我们可以测试它在更大的数据,看看是否有任何性能提升。

UPDATE
快速基准测试显示,mapply是快两倍,你正在做的是已经矢量化的apply

microbenchmark(apply(df[,2:4], 1, function(x) GetRes(x[1], x[2], x[3])), mapply(GetRes, df[,2], df[,3], df[,4])) 
Unit: microseconds 
                 expr  min  lq median  uq  max neval 
apply(df[, 2:4], 1, function(x) GetRes(x[1], x[2], x[3])) 196.985 201.6200 206.7515 216.187 1006.775 100 
       mapply(GetRes, df[, 2], df[, 3], df[, 4]) 99.982 105.6105 108.7560 112.232 149.311 100 
+0

增加。它来自'bitops' – 2013-04-24 05:53:15

+1

如果'mapply'工作得更快,也可能使用它的并行版本:'library(parallel); mcapply(GetRes,df [,2],df [,3],df [,4],mc.cores = xxx)',其中'xxx'是计算机中的核心数量。 – 2013-04-24 06:45:14