是否可以使用data.table在数据集上快速按组应用双参数函数?在一百万行的数据集上,我发现调用下面定义的简单函数超过了11秒,这比我期望的要复杂得多。下面加速查询R data.table - 这个双参数函数可以更迅速地按组应用吗?
自包含的代码概括了什么,我试图做的要领:
# generate data frame - 1 million rows
library(data.table)
set.seed(42)
nn = 1e6
daf = data.frame(aa=sample(1:1000, nn, repl=TRUE),
bb=sample(1:1000, nn, repl=TRUE),
xx=rnorm(nn),
yy=rnorm(nn),
stringsAsFactors=FALSE)
# myfunc is the function to apply to each group
myfunc = function(xx, yy) {
if (max(yy)>1) {
return(mean(xx))
} else {
return(weighted.mean(yy, ifelse(xx>0, 2, 1)))
}
}
# running the function takes around 11.5 seconds
system.time({
dt = data.table(daf, key=c("aa","bb"))
dt = dt[,myfunc(xx, yy), by=c("aa","bb")]
})
head(dt)
# OUTPUT:
# aa bb V1
# 1: 1 2 -1.02605645
# 2: 1 3 -0.49318243
# 3: 1 4 0.02165797
# 4: 1 5 0.40811793
# 5: 1 6 -1.00312393
# 6: 1 7 0.14754417
有没有一种方法,以减少显著为一个函数调用这样的时候?
我感兴趣的是是否有一种更有效的方式来执行上述计算而不完全重写函数调用,或者是否只能通过分解函数并以某种方式将其重写为data.table来加速句法。
非常感谢您的回复。
你会拿起多一点速度,如果你摆脱ifelse'的'(如'DT3 [,W:= 1] [XX> 0,W:= 2]') – eddi
这是同样值得注意的是,由于'data.table'优化工作的方式,'dt [,mean(a),by = b]'将比'mymean = function(x)mean(x) ; dt [,mymean(a),by = b]' – eddi