2012-02-16 177 views
12

是否有快速找到矩阵B中哪些行存在于矩阵B中? 例如比较两个矩阵之间的行

m1 = matrix(c(1:6), ncol=2, byrow = T); m2 = matrix(c(1:4), ncol=2, byrow=T); 

和结果将是1,2。

的矩阵不具有相同的行数(列数是一样的),并且它们是有些大的 - 从10^6 - 10^7的行数。

做的最快的方法,我知道现在是:

duplicated(rbind(m1, m2)) 

TNX!

+2

您使用'duplicated'的解决方案还会返回在矩阵中重复的任何行,即使它仅出现在两个矩阵中的一个中。无论如何,@ MatthewDowle的回答非常好。 – 2012-02-16 19:00:43

+1

'data.table'可能会更快,因为它不会使用'do.call(“paste”'在后台。如果你更喜欢'重复'到'M2 [M1]'然后'重复(as.data.table (rbind(m1,m2)))''可能会更快,出于同样的原因。有兴趣看到你的时间。 – 2012-02-16 19:09:43

+0

@大卫哦是的,关于'重复'方法的好点。 – 2012-02-16 19:11:59

回答

21

该尺寸的一个快速方法应该是:

require(data.table) 
M1 = setkey(data.table(m1)) 
M2 = setkey(data.table(m2)) 
na.omit(
    M2[M1,which=TRUE] 
) 
[1] 1 2 
-1

我创造了这个功能,将返回原来的ID。例如,要将矩阵x与矩阵y匹配,它将返回y的匹配ID。

rowiseMatch2 <- function(x,y){ 
    require(data.table) 
    keycols <- colnames(x) 
    x <- cbind(x, id=1:nrow(x)) 
    y <- cbind(y, id=1:nrow(y)) 
    m1 = data.table(x) 
    setkeyv(m1, keycols) 
    m2 = data.table(y) 
    setkeyv(m2, keycols) 
    m1id <- m1$id 
    m2id <- m2$id 

    m1$id <- NULL 
    m2$id <- NULL 

    m <- na.omit(m2[m1,which=TRUE]) 
    mo <- m2id[m][order(m1id)] 

    if(length(mo) == nrow(x)){ 
    cat("Complete match!\n") 
    }else{ 
    cat("Uncomplete match, match percentage is:", round(length(mo)/nrow(x), 4)*100, "%\n") 
    } 
    return(as.integer(mo)) 
}