2011-03-07 96 views
1

我有一个数据帧a,表示缺少一些单元的信息,之后我收集了缺失的数据并创建了另一个数据帧b在R中使用合并来填充数据中的NA。

我通常填充缺失的数据通过下面的代码:

for (loop.b in (1:nrow(b))) 
    {a[a[,"uid"]==b[loop.b,"uid"],"var1"] <- b[loop.b,"var1"] 
    } 

这对我的作品OK,但如果b是有大量的行?然后,显式循环会使进程变慢。有没有更好的方法来做这种“缺少数据替换”的工作?

谢谢。

+0

看看'norm'包和'prelim.norm'函数。 'Hmisc'具有良好的插补功能,更不用说'mi'了...... CRAN包列表是一个很好的开始。 – aL3xa 2011-03-07 07:15:49

+0

哦,顺便说一句,摆脱那个讨厌的循环... =) – aL3xa 2011-03-07 07:34:17

+2

我可能是密集的,你可以通过发布一个可重复的小例子来帮助我吗? – 2011-03-07 07:42:53

回答

0

我认为你想match,但很难猜测你的数据是什么样的。

## a's var1 has some missing values 
a <- data.frame(var1 = c(1, NA, 4.5, NA, 6.5), uid = 5:1) 
## b knows all about them 
b <- data.frame(var1 = c(2.3, 8.9), uid = c(2, 4)) 

## find the indexes in a$uid that match b$uid 
ind <- match(b$uid, a$uid) 

## those indexes now can be filled directly with b$uid 
a$var1[ind] <- b$var1 

即使uids不是唯一的(尽管名称的种类暗示它们是),这种方法仍然可行。

1

假设以下两种数据帧类似于你描述:

R> a <- data.frame(uid=1:10,var1=c(1:3,NA,5:7,NA,9:10)) 
R> a 
    uid var1 
1 1 1 
2 2 2 
3 3 3 
4 4 NA 
5 5 5 
6 6 6 
7 7 7 
8 8 NA 
9 9 9 
10 10 10 

R> b <- data.frame(uid=c(8,4),var1=c(74,82)) 
R> b 
    uid var1 
1 8 74 
2 4 82 

那么你可以直接使用以下命令:

R> a[b$uid,"var1"] <- b$var1 

其中给出:

R> a 
    uid var1 
1 1 1 
2 2 2 
3 3 3 
4 4 82 
5 5 5 
6 6 6 
7 7 7 
8 8 74 
9 9 9 
10 10 10 
1

这作品:

# matches of a$uid in b$uid, NA if not match 
ind = match(a$uid, b$uid) 
# 'ind' are the index in b and NA, we remove the latter 
a[!is.na(ind),"var1"] = b[ind[!is.na(ind)],"var1"]