当我想到笨重的时候,就会想到像旧自行车或旧车这样的东西,而且还会通过遍历行来处理R中的事情。所以下面的结果看起来比你在问题中发表的内容更加笨拙,但是它依赖于我认为是更加矢量化的解决方案。以下内容似乎比您上面张贴的时尚代码快10倍(并返回相同的结果)。
这一建议依赖于reshape2
包:
library(data.table)
library(reshape2)
我已经添加了 “C” 作为一种可能的column_choice
,使事情变得更有趣一些:
dat=data.table(a_data = c(55,56,57,65),
b_data = c(1,2,3,4),c_data=c(1000,1001,1002,1003),
column_choice = c("a", "c", "a", "b"))
下面是步骤,包裹在一个函数中,以准备它们进行基准测试。
myFun<-function(myDat){
# convert data.table to data.frame for melt()ing
dat1<-data.frame(myDat)
# add ID variable to keep track of things
dat1$ID<-seq_len(nrow(dat1))
# melt data - because of this line, it's important to only
# pass those variables that are used to select the appropriate value
# i.e., a_data,b_data,c_data,column_choice
dat2<-melt(dat1,id.vars=c("ID","column_choice"))
# Determine which value to choose: a, b, or c
dat2$chosen<-as.numeric(dat2$column_choice==substr(dat2$variable,
1,1))*dat2$value
# cast the data back into the original form
dat_cast<-dcast(dat2,ID+column_choice~.,
fun.aggregate=sum,value.var="chosen")
# rename the last variable
names(dat_cast)[ncol(dat_cast)]<-"chosen"
# merge data back together and return results as a data.table
datOUT<-merge(dat1,dat_cast,by=c("ID","column_choice"),sort=FALSE)
return(data.table(datOUT[,c(names(myDat),"chosen")]))
}
这里是您的解决方案打包成一个功能:
petesFun<-function(myDat){
datOUT=myDat[, data.table(.SD,
chosen=.SD[[paste0(.SD$column_choice, "_data")]]),
by=1:nrow(myDat)]
datOUT$nrow = NULL
return(datOUT)
}
这看起来比myFun
更优雅。基准测试结果显示出很大的差异,但是:
制作更大的数据。表:
test.df<-data.frame(lapply(dat,rep,100))
test.dat<-data.table(test.df)
和基准:
library(rbenchmark)
benchmark(myRes<-myFun(test.dat),petesRes<-petesFun(test.dat),
replications=25,columns=c("test", "replications", "elapsed", "relative"))
# test replications elapsed relative
# 1 myRes <- myFun(test.dat) 25 0.412 1.00000
# 2 petesRes <- petesFun(test.dat) 25 5.429 13.17718
identical(myRes,petesRes)
# [1] TRUE
我建议“笨重”,可以以不同的方式:)
Doh!非常适合按column_choice +1进行分组。必须有一种方法来避免'cbind()'并且进一步减少时间。用于':='按组的大测试用例,实施时。 – 2012-04-18 13:06:16
使用':='按组编辑好的编辑。理想情况下,我们希望避免使用'.SD'来提高效率(以保存为每个组所不需要的所有列填充'.SD')。也许:'myDat [,选择:= myDat [[paste0(column_choice,“_ data”)]] [。I],by = column_choice]'。如果这样做的话,它应该快得多,因为'myDat'的列数增长了。 – 2013-03-27 14:10:32