2017-06-22 100 views
2

我有两个我想合并的大数据帧列表。这是一个数据样本。r:合并两个数据帧的列表

list1 = list(data.frame(Wvlgth = c(337, 337.5, 338, 338.5, 339, 339.5), 
      Global = c(".9923+00",".01245+00", ".0005+00", ".33421E+00", ".74361+00", ".129342+00"), 
      group = c(0,0,0,0,0,0)), 
      data.frame(Wvlgth = c(337, 337.5, 338, 338.5, 339, 339.5), 
      Global = c(".1284+00",".0098+00", ".7853+00", ".2311+00", ".1211+00", ".75345+00"), 
      group = c(1,1,1,1,1,1))) 

list2 = list(data.frame(Wvlgth = c(337, 337.5, 338, 339), 
       time = c("13.445","13.445", "13.445", "13.445"), 
       IRD = c(.01324, .34565, .92395, .67489)), 
       data.frame(Wvlgth = c(337, 337.5, 338, 339), 
       time = c("13.45361","13.45361", "13.45361", "13.45361"), 
       IRD = c(.20981, .98703, .54092, .38567))) 

我想合并与list2中的每个数据帧列表1中的每个数据帧,由“Wvlgth”,让这样的事情:

Wvlgth time  IRD  Global  group 
337  13.445 0.01324 .9923+00  0 
337.5  13.445 0.34565 .01245+00  0 
338  13.445 0.92395 .0005+00  0 
339  13.445 0.67489 .74361+00  0 
337  13.45361 0.20981 .1284+00  1 
337.5  13.45361 0.98703 .0098+00  1 
338  13.45361 0.54092 .7853+00  1 
338.5  13.45361 0.38567 .2311+00  1 

我想使用一个内连接因为dataframes list1没有与list2的数据帧相同的行数。

我尝试了使用dplyr从this question,接受的答案,但它最终以奇怪的方式合并它们,我不太确定发生了什么。它看起来像水平合并它们而不是垂直...?

> c(list1, list2) %>% 
     Reduce(function(dtf1, dtf2) inner_join(dtf1, dtf2, by="Wvlgth"), .) 

    Wvlgth Global.x group.x Global.y group.y time.x IRD.x time.y 
1 337.0 .9923+00  0 .1284+00  1 13.445 0.01324 13.45361 
2 337.5 .01245+00  0 .0098+00  1 13.445 0.34565 13.45361 
3 338.0 .0005+00  0 .7853+00  1 13.445 0.92395 13.45361 
4 339.0 .74361+00  0 .1211+00  1 13.445 0.67489 13.45361 
    IRD.y 
1 0.20981 
2 0.98703 
3 0.54092 
4 0.38567 

回答

1

你可以遍历两个列表同时,加入使用map2从包purrr每个元素。要返回单个数据帧,而不是单独的连接数据帧列表,可以使用map2_df

library(purrr) 
library(dplyr) 

map2_df(list1, list2, inner_join, by = "Wvlgth") 

    Wvlgth Global group  time  IRD 
1 337.0 .9923+00  0 13.445 0.01324 
2 337.5 .01245+00  0 13.445 0.34565 
3 338.0 .0005+00  0 13.445 0.92395 
4 339.0 .74361+00  0 13.445 0.67489 
5 337.0 .1284+00  1 13.45361 0.20981 
6 337.5 .0098+00  1 13.45361 0.98703 
7 338.0 .7853+00  1 13.45361 0.54092 
8 339.0 .1211+00  1 13.45361 0.38567 
+0

这看起来不错!谢谢! – ale19

0

在基R,可以的Map输出馈送到do.call/rbind

do.call(rbind, Map(merge, list1, list2, by="Wvlgth")) 
    Wvlgth Global group  time  IRD 
1 337.0 .9923+00  0 13.445 0.01324 
2 337.5 .01245+00  0 13.445 0.34565 
3 338.0 .0005+00  0 13.445 0.92395 
4 339.0 .74361+00  0 13.445 0.67489 
5 337.0 .1284+00  1 13.45361 0.20981 
6 337.5 .0098+00  1 13.45361 0.98703 
7 338.0 .7853+00  1 13.45361 0.54092 
8 339.0 .1211+00  1 13.45361 0.38567 

Map合并两个列表相应data.frames并返回data.frames的一个列表。这些数据帧随后会附加do.callrbind

如果数据集是特别大,你可以从data.table执行与rbindlist的追加:

library(data.table) 
rbindlist(Map(merge, list1, list2, by="Wvlgth")) 

它返回一个data.table对象。