2016-08-19 127 views
6

我想合并数据框的行,使“开始”和“结束”列所描述的范围包含原始数据集的所有值。可能有重叠,重复和嵌套范围。一些范围可能会丢失。根据日期范围合并行

这是我想崩溃的数据类型的例子:

data = data.frame(rbind(
    c("Roger", 1, 10), 
    c("Roger", 10, 15), 
    c("Roger", 16, 17), 
    c("Roger", 3, 6), 
    c("Roger", 20, 25), 
    c("Roger", NA, NA), 
    c("Susan", 2, 8))) 
names(data) = c("name", "start", "end") 
data$start = as.numeric(as.character(data$start)) 
data$end = as.numeric(as.character(data$end)) 

期望的结果将是:

name start end 
Roger 1  17 
Roger 20 25 
Susan 2  8 

我的尝试是每个项目中展开了范围为每行。这有效,但我不知道如何缩小它。另外,我正在使用的完整数据集有大约3000万行和非常大的范围,所以这种方法非常慢。

pb <- txtProgressBar(min = 0, max = length(data$name), style = 3) 
mylist = list() 
for(i in 1:length(data$name)){ 
    subdata = data[i,] 
    if(is.na(subdata$start)){ 
    mylist[[i]] = subdata 
    mylist[[i]]$each = NA 
    } 
    if(!is.na(subdata$start)){ 
    sequence = seq(subdata$start, subdata$end) 
    mylist[[i]] = subdata[rep(1, each = length(sequence)),] 
    mylist[[i]]$daily = sequence 
    } 
    setTxtProgressBar(pb, i) 
} 

rbindlist(mylist) 
+0

也许这很明显,但为什么罗杰出现两次?而不是在start = 1和end = 25的行中。 – snoram

+0

@snoram好问题。因为罗杰没有18或19,所以这两个记录反映了他的范围内的差距。 – Nancy

+2

相关:[在R中折叠相交区域](http://stackoverflow.com/questions/16957293/collapse-intersecting-regions-in-r)和[合并重叠范围到唯一组中](http://stackoverflow.com/questions/15235821/merge-overlapping-ranges-into-unique-groups) – Henrik

回答

10

我猜IRanges为这个更有效的,但是......

library(data.table) 

# remove missing values 
DT = na.omit(setDT(data)) 

# sort 
setorder(DT, name, start) 

# mark threshold for a new group 
DT[, high_so_far := shift(cummax(end), fill=end[1L]), by=name] 

# group and summarise 
DT[, .(start[1L], end[.N]), by=.(name, g = cumsum(start > high_so_far + 1L))] 

#  name g V1 V2 
# 1: Roger 0 1 17 
# 2: Roger 1 20 25 
# 3: Susan 1 2 8 

工作原理:

  • cummax是累计最高,所以目前为止的最高值,包括当前行。
  • 要取出排除当前行的值,请使用shift(从前一行中抽取)。
  • cumsum(some_condition)是制作分组变量的标准方式。
  • .N是由by=确定的组的最后一行。

如果需要,可以在最后一步中命名这些列,如.(s = start[1L], e = end[.N])


随着日期的时间间隔。如果使用日期,我会建议IDate课程;只需使用as.IDate即可转换为Date

我们可以+1约会,但可惜不能cummax,所以...

cummax_idate = function(x) (setattr(cummax(unclass(x)), "class", c("Date", "IDate"))) 

set.seed(1) 
d = sample(as.IDate("2011-11-11") + 1:10) 
cummax_idate(d) 
# [1] "2011-11-14" "2011-11-15" "2011-11-16" "2011-11-18" "2011-11-18" 
# [6] "2011-11-19" "2011-11-20" "2011-11-20" "2011-11-21" "2011-11-21" 

我觉得这个功能可以代替cummax使用。

功能中的额外()是因为setattr不会打印其输出。

+0

我会在'setDT'之后移动'na.omit'以最终使用更快的'na.omit.data.table'方法。 – jangorecki

+0

好的,完成了。谢谢,@jangorecki – Frank

+0

@这太好了。我实际上使用这个日期范围,但将日期转换为数字,然后返回日期与此方法一起使用并保留日期。 – Nancy