创建一个函数，用一个data.frame中的NAs替换另一个data.frame中的值

我经常会遇到这样的情况，我需要用data.frame中的缺失值替换其他data.frame中的值，这些值位于不同级别的聚合。所以，举例来说，如果我有一个充满县数据的data.frame，我可能会用存储在另一个data.frame中的状态值替换NA值。写完之后merge ... ifelse(is.na()) yada yada几十次我决定分解并编写一个函数来做到这一点。创建一个函数，用一个data.frame中的NAs替换另一个data.frame中的值

这就是我与我如何使用它的一个例子熟了起来，沿着：

fillNaDf <- function(naDf, fillDf, mergeCols, fillCols){ 
mergedDf <- merge(naDf, fillDf, by=mergeCols) 
for (col in fillCols){ 
    colWithNas <- mergedDf[[paste(col, "x", sep=".")]] 
    colWithOutNas <- mergedDf[[paste(col, "y", sep=".")]] 
    k <- which(is.na(colWithNas)) 
    colWithNas[k] <- colWithOutNas[k] 
    mergedDf[col] <- colWithNas 
    mergedDf[[paste(col, "x", sep=".")]] <- NULL 
    mergedDf[[paste(col, "y", sep=".")]] <- NULL 
} 
return(mergedDf) 
} 

## test case 
fillDf <- data.frame(a = c(1,2,1,2), b = c(3,3,4,4) ,f = c(100,200, 300, 400), g = c(11, 12, 13, 14)) 
naDf <- data.frame(a = sample(c(1,2), 100, rep=TRUE), b = sample(c(3,4), 100, rep=TRUE), f = sample(c(0,NA), 100, rep=TRUE), g = sample(c(0,NA), 200, rep=TRUE)) 
fillNaDf(naDf, fillDf, mergeCols=c("a","b"), fillCols=c("f","g"))

所以之后我得到这个运行我有这种奇怪的感觉，有人可能已经在我面前，并在解决了这个问题更优雅的方式。这个问题有更好/更简单/更快的解决方案吗？另外，有没有一种方法可以消除函数中间的循环？那个循环在那里，因为我经常替换多个列中的NAs。而且，是的，该函数假定我们填写的列从被命名为相同，我们填充的列为至，这同样适用于合并。

任何指导或重构都会有帮助。

EDIT上12月02日我意识到逻辑缺陷在我的例子，我固定。

来源

2011-12-01 JD Long

真是个好问题。

这里有一个data.table解决方案：

# Convert data.frames to data.tables (i.e. data.frames with extra powers;) 
library(data.table) 
fillDT <- data.table(fillDf, key=c("a", "b")) 
naDT <- data.table(naDf, key=c("a", "b")) 


# Merge data.tables, based on their keys (columns a & b) 
outDT <- naDT[fillDT]  
#  a b f g f.1 g.1 
# [1,] 1 3 NA 0 100 11 
# [2,] 1 3 NA NA 100 11 
# [3,] 1 3 NA 0 100 11 
# [4,] 1 3 0 0 100 11 
# [5,] 1 3 0 NA 100 11 
# First 5 rows of 200 printed. 

# In outDT[i, j], on the following two lines 
# -- i is a Boolean vector indicating which rows will be operated on 
# -- j is an expression saying "(sub)assign from right column (e.g. f.1) to 
#  left column (e.g. f) 
outDT[is.na(f), f:=f.1] 
outDT[is.na(g), g:=g.1] 

# Just keep the four columns ultimately needed 
outDT <- outDT[,list(a,b,g,f)] 
#  a b g f 
# [1,] 1 3 0 0 
# [2,] 1 3 11 0 
# [3,] 1 3 0 0 
# [4,] 1 3 11 0 
# [5,] 1 3 11 0 
# First 5 rows of 200 printed.

来源

2011-12-02 00:47:16

冷却。一些评论可能会帮助我理解它。它看起来简洁！ :) –

好 - 我评论了一下。如果您有兴趣了解更多信息，'？data.table'的'Examples'部分就是典范，值得花费20分钟。特别是如果你是一个大数据家伙 - 看起来你可能会这样 - 它可能真的值得前期投资。 –

谢谢乔希。这真的很有帮助。 –

这是你的方法稍微更简洁/可靠的版本。您可以通过致电lapply替换for循环，但我发现循环更易于阅读。

此函数假设任何列而不是在mergeCols是公平的游戏以填补他们的NAs。我不确定这有帮助，但我会把我的机会与选民。

fillNaDf.ju <- function(naDf, fillDf, mergeCols) { 
    mergedDf <- merge(fillDf, naDf, by=mergeCols, suffixes=c(".fill","")) 
    dataCols <- setdiff(names(naDf),mergeCols) 
    # loop over all columns we didn't merge by 
    for(col in dataCols) { 
    rows <- is.na(mergedDf[,col]) 
    # skip this column if it doesn't contain any NAs 
    if(!any(rows)) next 
    rows <- which(rows) 
    # replace NAs with values from fillDf 
    mergedDf[rows,col] <- mergedDf[rows,paste(col,"fill",sep=".")] 
    } 
    # don't return ".fill" columns 
    mergedDf[,names(naDf)] 
}

来源

2011-12-02 01:54:05

我更倾向于将退出从合并，做匹配的代码，做我自己，这样我可以保持原有数据帧的顺序不变，无论按行和列明智的。我也使用矩阵索引来避免任何循环，尽管如此，我用修改后的fillCols创建了一个新的数据框，并用它替换了原始的列;我想我可以直接填写它，但显然你不能使用矩阵排序来替换data.frame的一部分，所以如果在某些情况下，名称上的循环会更快，我不会感到惊讶。

随着矩阵索引：

fillNaDf <- function(naDf, fillDf, mergeCols, fillCols) { 
    fillB <- do.call(paste, c(fillDf[, mergeCols, drop = FALSE], sep="\r")) 
    naB <- do.call(paste, c(naDf[, mergeCols, drop = FALSE], sep="\r")) 
    na.ind <- is.na(naDf[,fillCols]) 
    fill.ind <- cbind(match(naB, fillB)[row(na.ind)[na.ind]], col(na.ind)[na.ind]) 
    naX <- naDf[,fillCols] 
    fillX <- fillDf[,fillCols] 
    naX[na.ind] <- fillX[fill.ind] 
    naDf[,colnames(naX)] <- naX 
    naDf 
}

随着循环：

fillNaDf2 <- function(naDf, fillDf, mergeCols, fillCols) { 
    fillB <- do.call(paste, c(fillDf[, mergeCols, drop = FALSE], sep="\r")) 
    naB <- do.call(paste, c(naDf[, mergeCols, drop = FALSE], sep="\r")) 
    m <- match(naB, fillB) 
    for(col in fillCols) { 
    fix <- which(is.na(naDf[,col])) 
    naDf[fix, col] <- fillDf[m[fix],col] 
    } 
    naDf 
}

来源

2011-12-02 18:00:53 Aaron

创建一个函数，用一个data.frame中的NAs替换另一个data.frame中的值

回答

相关问题