2011-05-03 82 views
2

代码来获取数据帧:合并缺失值的数据帧中的R

rat_all = structure(list(frequency = c(37L, 31L, 14L, 11L, 2L, 3L), isoforms = 8:13,  
    type = structure(c("rat_all", "rat_all", "rat_all", "rat_all",    
    "rat_all", "rat_all"), .Dim = c(6L, 1L))), .Names = c("frequency",   
"isoforms", "type"), row.names = 8:13, class = "data.frame") 

rat_ensembl = structure(list(frequency = c(17L, 8L, 20L), isoforms = 8:10,      
    type = structure(c("rat_ensembl", "rat_ensembl", "rat_ensembl"    
    ), .Dim = c(3L, 1L))), .Names = c("frequency", "isoforms",     
"type"), row.names = 8:10, class = "data.frame") 

我有两个数据帧:

frequency isoforms  type            
8   17  8 rat_ensembl            
9   8  9 rat_ensembl            
10  20  10 rat_ensembl 

frequency isoforms type             
8   37  8 rat_all             
9   31  9 rat_all             
10  14  10 rat_all             
11  11  11 rat_all             
12   2  12 rat_all             
13   3  13 rat_all 

我想将这些组合成一个数据框,但也包括缺少的 isoforms条目在rat_all数据帧中,但不是rat_ensembl 数据帧。所以我想输出是因为如果我rbinded 两个数据帧组合数据帧,但增强:

11   0  11 rat_ensembl 
12   0  12 rat_ensembl 
13   0  13 rat_ensembl 

我想我可以合并做,但我风得到一个巨大的混乱我不得不放松一下,我最终可以按照正确的格式进行按摩,但如果我想一次为四到五种不同的“类型”做这个,那么这不是一个好的解决方案。我错过了什么?谢谢!

要清楚,我希望得到一个看起来像最后的数据帧:

 frequency isoforms  type            
1   17  8 rat_ensembl            
2   8  9 rat_ensembl            
3   20  10 rat_ensembl             
4   37  8 rat_all             
5   31  9 rat_all             
6   14  10 rat_all             
7   11  11 rat_all             
8   2  12 rat_all             
9   3  13 rat_all 
10   0  11 rat_ensembl 
11   0  12 rat_ensembl 
12   0  13 rat_ensembl 

我可以种得到它做我想做的,如果我使用:

z = merge(rat_ensembl, rat_all, by.x="isoforms", by.y="isoforms", all.y=TRUE) 
    isoforms frequency.x  type.x frequency.y type.y       
7   7   44 rat_ensembl   69 rat_all       
8   8   17 rat_ensembl   37 rat_all       
9   9   8 rat_ensembl   31 rat_all       
10  10   20 rat_ensembl   14 rat_all       
11  11   NA  <NA>   11 rat_all       
12  12   NA  <NA>   2 rat_all       
13  13   NA  <NA>   3 rat_all       
14  14   NA  <NA>   1 rat_all    

然后,理论上我可以选择isoforms,frequency.x,type.x列和 修复它们,使它们对于rat_ensemblrat_all中的每一个都是正确的,然后是那些 数据帧在一起,但似乎应该有一些东西来直接处理它。

+0

你有什么合并尝试?您想要合并的常用列是什么?频率,亚型,类型?上述所有的?一旦确定了公共列,那么通过指定“全部”参数来指定是否需要内部连接,左连接,右连接或外连接。另外,您是否可以使用代码片段更新您的问题,以便人员可以将其粘贴到其R会话中?使用'dput()'并将内容粘贴到你的问题中。 – Chase 2011-05-03 15:37:34

+0

谢谢你的建议,这是非常有帮助的。我在帖子中增加了额外的信息。 – rory 2011-05-03 16:11:11

回答

2

也许你想这样的事情

z <- merge(rat_ensembl, rat_all, all = TRUE) 

iso_diff <- setdiff(rat_all$isoforms, rat_ensembl$isoforms) 

augmented <- data.frame(frequency = 0, isoforms = iso_diff, type = "rat_ensembl", stringsAsFactors= FALSE) 

df_all <- rbind(z, augmented) 

希望有所帮助。

+0

嗨Iselzer,这似乎只是给我同样的结果作为绑定两个数据帧在一起。我正在寻找一些方法来补充一些数据帧中缺少的数据。我更新了我的帖子,使其更加清晰。谢谢! – rory 2011-05-03 16:31:54

+0

@rory,我只是提出了我的想法,以包括你真正想要的东西。我不知道是否有更简单的方法。如果有人知道它,请张贴它。 – 2011-05-03 17:10:38

+0

感谢Iselzer,setdiff函数对我来说是一个新功能。我认为这个解决方案适用于我,但只有当我确定所有的差异都是由于一种情况才能起作用。但就我而言,情况就是如此。谢谢! – rory 2011-05-03 17:16:49