如何计算R中变量行之间的时间差？

我期望根据开始工作时间和结束工作时间计算不同组的时间差异。我怎么能告诉R根据他们在一个组中的标签计算两行之间的difftime？下面是一个简单的数据集：如何计算R中变量行之间的时间差？

library(data.table) 


latemail <- function(N, st="2012/01/01", et="2012/02/01") { 
    st <- as.POSIXct(as.Date(st)) 
    et <- as.POSIXct(as.Date(et)) 
    dt <- as.numeric(difftime(et,st,unit="sec")) 
    ev <- sort(runif(N, 0, dt)) 
    rt <- st + ev 

} 

#create our data frame 
set.seed(42) 
dt = latemail(20) 
work = setDT(as.data.frame(dt)) 
work[,worker:= stringi::stri_rand_strings(2, 5)] 
work[,dt:= as.POSIXct(as.character(work$dt), tz = "GMT")] 
work[,status:=NA] 

#order 
setorder(work, worker, dt) 

#add work times 
work$status[1] = "start" 
work$status[5] = "end" 
work$status[6] = "start" 
work$status[10] = "end" 
work$status[11] = "start" 
work$status[15] = "end" 
work$status[16] = "start" 
work$status[20] = "end"

表现在看起来是这样的：

    dt worker status 
1: 2012-01-04 23:11:31 VOuRp start 
2: 2012-01-09 15:53:16 VOuRp  NA 
3: 2012-01-15 02:56:45 VOuRp  NA 
4: 2012-01-16 21:12:26 VOuRp  NA 
5: 2012-01-20 16:27:31 VOuRp end 
6: 2012-01-22 15:34:05 VOuRp start 
7: 2012-01-23 15:01:18 VOuRp  NA 
8: 2012-01-29 03:36:56 VOuRp  NA 
9: 2012-01-29 20:11:02 VOuRp  NA 
10: 2012-01-31 02:48:01 VOuRp end 
11: 2012-01-04 10:24:38 u8zw5 start 
12: 2012-01-08 17:02:20 u8zw5  NA 
13: 2012-01-14 23:33:35 u8zw5  NA 
14: 2012-01-15 12:23:52 u8zw5  NA 
15: 2012-01-18 03:53:15 u8zw5 end 
16: 2012-01-21 03:48:08 u8zw5 start 
17: 2012-01-23 02:01:10 u8zw5  NA 
18: 2012-01-26 12:51:10 u8zw5  NA 
19: 2012-01-29 18:23:46 u8zw5  NA 
20: 2012-01-29 22:22:14 u8zw5 end

答案我在寻找：最后我想获得的底值（标工人1和工人2只是因为不知道如何处理stringi的set.seed()）。下面的代码让我对工人1中的第一行，但我想每个工人每个班次：

difftime(as.POSIXct("2012-01-20 16:27:31"), as.POSIXct("2012-01-04 23:11:31"), units = "hours") 
    Work time time difference in hours 
    worker 1   377.2667 hours 
    worker 2   . . . .

在这个例子中，我有一个甚至成立工人之间的值，但假设我有之间的可变行不同的工人会是什么样子？我正在假设某种difftime公式？我正在处理大量数据时会使用数据表解决方案。

来源

2017-03-10 LoF10

你怎么得到这样的数字？（172.6158和388.6102）。对我而言，你不清楚你想得到什么。 –

对不起，我失算了。我正在寻找每一个开始的差异，例如：difftime（as.POSIXct（“2012-01-20 16:27:31”），as.POSIXct（“2012-01-04 23:11： 31“），单位=”小时“），工人1的第一班，然后下一班 – LoF10

下面是使用data.table一个解决方案：

work[status %in% c("start", "end"), 
     time.diff := ifelse(status == "start", 
     difftime(shift(dt, fill = NA, type = "lead"), dt, units = "hours"), NA), 
     by = worker][status == "start", sum(time.diff), worker]

我们得到：

worker  V1 
1: VOuRp 580.4989 
2: u8zw5 540.0453 
>

其中V1有从每个工人启动结束期间的所有时间的总和。

让我们一步一步解释，以便更好地理解。

STEP 1.与start或end状态选中所有行：

work.se <- work[status %in% c("start", "end")] 

        dt worker status 
1: 2012-01-04 23:11:31 VOuRp start 
2: 2012-01-20 16:27:31 VOuRp end 
3: 2012-01-22 15:34:05 VOuRp start 
4: 2012-01-31 02:48:01 VOuRp end 
5: 2012-01-04 10:24:38 u8zw5 start 
6: 2012-01-18 03:53:15 u8zw5 end 
7: 2012-01-21 03:48:08 u8zw5 start 
8: 2012-01-29 22:22:14 u8zw5 end 
>

STEP 2：计算当前行和下一个之间的时间差创建功能。该函数将在data.table对象内调用。我们使用shift功能从同一个包：

getDiff <- function(x) { 
    difftime(shift(x, fill = NA, type = "lead"), x, units = "hours") 
}

getDiff计算从下一条记录（集团内）和当前的时间差。它为最后一行分配NA，因为没有下一个值。然后我们排除计算中的NA值。

STEP 3：在data.table语法中调用它：

work.result <- work.se[, time.diff := ifelse(status == "start", 
    getDiff(dt), NA), by = worker]

我们得到这样的：

    dt worker status time.diff 
1: 2012-01-04 23:11:31 VOuRp start 377.2667 
2: 2012-01-20 16:27:31 VOuRp end  NA 
3: 2012-01-22 15:34:05 VOuRp start 203.2322 
4: 2012-01-31 02:48:01 VOuRp end  NA 
5: 2012-01-04 10:24:38 u8zw5 start 329.4769 
6: 2012-01-18 03:53:15 u8zw5 end  NA 
7: 2012-01-21 03:48:08 u8zw5 start 210.5683 
8: 2012-01-29 22:22:14 u8zw5 end  NA

STEP 4：和非NA为每个time.diff列值worker：

> work.result[status == "start", sum(time.diff), worker] 
    worker  V1 
1: VOuRp 580.4989 
2: u8zw5 540.0453 
>

data.table对象可经由[]所附连在一起，因此它可以被合并到一个单句的最后部分：

work.se[, time.diff := ifelse(status == "start", 
    getDiff(dt), NA), by = worker][status == "start", sum(time.diff), worker]

FINAL：把所有在一起成为一个单独的句子：

work[status %in% c("start", "end"), 
    time.diff := ifelse(status == "start", 
    difftime(shift(dt, fill = NA, type = "lead"), dt, units = "hours"), NA), 
    by = worker][status == "start", sum(time.diff), worker]

检查此link的data.table基本语法。我希望这会有所帮助，请让我们知道，如果它是你想要的

来源

2017-03-10 04:24:53

谢谢大卫！这对数据集的第一个版本有意义。我想知道如何我可能会接近我的编辑版本？每个司机有两组或多组起止点？ – LoF10

@ LoF10，然后我会更新答案 –

这非常有帮助，正是我所需要的。谢谢大卫！ – LoF10

如何计算R中变量行之间的时间差？

回答

相关问题