2017-04-10 56 views
1

我必须经常子集一个data.frame的序列(每次运行数百万次)。 data.frame s近似为200行×30列。根据状态,data.frame中的值会从一次迭代更改为下一次迭代。因此,在开始时做一个子集是行不通的。有没有办法加快子集的较小的数据。框架

与此相反的问题,when a data.table starts to be faster than a data.frame,我找子集的速度,弥补了data.frame/data.table

以下最低可重复的例子显示了一个给定的大小,即data.frame似乎是最快的:

library(data.table) 
nmax <- 1e2 # for 1e7 the results look as expected: data.table is really fast! 
set.seed(1) 
x<-runif(nmax,min=0,max=10) 
y<-runif(nmax,min=0,max=10) 
DF<-data.frame(x,y) 
DT<-data.table(x,y) 

summary(microbenchmark::microbenchmark(
    setkey(DT,x,y), 
    times = 10L, unit = "us")) 

#    expr min  lq mean median  uq  max neval 
# 1 setkey(DT, x, y) 70.326 72.606 105.032 80.3985 126.586 212.877 10 

summary(microbenchmark::microbenchmark(
    DF[DF$x>5, ], 
    `[.data.frame`(DT,DT$x < 5,), 
    DT[x>5], 
    times = 100L, unit = "us")) 
#        expr  min  lq  mean median  uq  max neval 
# 1     DF[DF$x > 5, ] 41.815 45.426 52.40197 49.9885 57.4010 82.110 100 
# 2 `[.data.frame`(DT, DT$x < 5,) 43.716 47.707 58.06979 53.5995 61.2020 147.873 100 
# 3      DT[x > 5] 205.273 214.777 233.09221 222.0000 231.6935 900.164 100 

有什么我可以做的,以提高性能?输入后

编辑:

  • 我运行离散事件仿真和每个事件我有一个列表来搜索(我不介意它是否是一个data.framedata.table)。最有可能的是,我可以实施一种不同的方法,但是我必须重新编写超过3年开发的代码。目前,这不是一个选项。但如果没有办法让速度更快,这将成为未来的选择。
  • 从技术上讲,它不是一个data.frames的序列,而是一个data.frame,它随着每次迭代而变化。但是,这对“如何更快地获得子集”没有影响,我希望现在的问题更全面。
+0

除非您正在对数据进行几乎随机选择,否则您可能想要创建一个您可以参考的现有子集列表,而不是以反复的方式重复使用相同的数据框? –

+1

data.table子集中涉及开销。另请参阅http://stackoverflow.com/a/20179189/1412059 – Roland

+4

您应该询问有关您的实际问题的正确问题。如果你将数据框架子集数百万次,那么你的方法是错误的。 – Roland

回答

1

您将看到转换为矩阵的性能提升。如果您的data.frame的全部内容是数字(或者可以在没有太多麻烦的情况下进行转换),那么这是一个可行的选择。

我们走吧。首先,我修改了数据大小为200x30有它:

library(data.table) 
nmax = 200 
cmax = 30 
set.seed(1) 
x<-runif(nmax,min=0,max=10) 
DF = data.frame(x) 
for (i in 2:cmax) { 
    DF = cbind(DF, runif(nmax,min=0,max=10)) 
    colnames(DF)[ncol(DF)] = paste0('x',i) 
} 
DT = data.table(DF) 
DM = as.matrix(DF) # # # or data.matrix(DF) if you have factors 

和比较,排名从最快到最慢:

summary(microbenchmark::microbenchmark(
    DM[DM[, 'x']>5, ], # # # # Quickest 
    as.matrix(DF)[DF$x>5, ], # # # # Still quicker with conversion 
    DF[DF$x>5, ], 
    `[.data.frame`(DT,DT$x < 5,), 
    DT[x>5], 
    times = 100L, unit = "us")) 

#        expr  min  lq  mean median  uq  max neval 
# 1   DM[DM[, "x"] > 5, ] 13.883 19.8700 22.65164 22.4600 24.9100 41.107 100 
# 2  as.matrix(DF)[DF$x > 5, ] 141.100 181.9140 196.02329 195.7040 210.2795 304.989 100 
# 3     DF[DF$x > 5, ] 198.846 238.8085 260.07793 255.6265 278.4080 377.982 100 
# 4 `[.data.frame`(DT, DT$x < 5,) 212.342 268.2945 346.87836 289.5885 304.2525 5894.712 100 
# 5      DT[x > 5] 322.695 396.3675 465.19192 428.6370 457.9100 4186.487 100 

如果用例涉及查询多次的数据,那么你只能进行一次转换,并将速度提高一个数量级。

+0

酷,我已经放弃了,但似乎总有人有一个好主意:-) – Christoph

相关问题