2017-07-27 125 views
1

当我在R中使用矩阵子集时,似乎对内存使用有误解。当我尝试编写交叉验证函数时遇到了,但我认为问题更一般。下面我已经制作了一个小例子。R索引,矩阵乘法

# parameters 
n <- 1e6 # the real data are much bigger, but this will do 
m <- 50 
nfolds <- 10 
X <- matrix(rnorm(n*m,0,1),nrow=n,ncol=m) 
y <- rnorm(n,0,1) 
mse <- rep(0,nfolds) 
foldid <- sample(rep(seq(nfolds), length = n)) 

# produces big spikes in memory 
for (i in (1:nfolds)) { 
    which <- foldid == i 
    xpx <- crossprod(X[!which,]) 
    xpy <- crossprod(X[!which,],y[!which]) 
    b <- solve(xpx,xpy) 
    mse[i] <- mean((y[which] - X[which,] %*% b)**2) 
} 

# does not produce spikes in memory usage 
for (i in (1:nfolds)) { 
    xpx <- crossprod(X) 
    xpy <- crossprod(X,y) 
    b <- solve(xpx,xpy) 
    mse[i] <- mean((y - X %*% b)**2) 
} 

我不明白为什么第一个循环产生的内存使用大向上尖峰,而虽然有严格的更大的矩阵相乘的第二循环不。

回答

1

我们来比较第一行和循环。

首先,简单crossprod

xpx <- crossprod(X) 

没有子集,你用矩阵X(已有400 MB)和xpx(小)工作。

其次,与子集:

xpx <- crossprod(X[!which,]) 

在这里,你有X工作,临时矩阵X[!which,]xpx。附加矩阵X[!which,]需要额外的360 MB内存。

object.size(X[!which,]) 
# 360000200 bytes 

R具有较差的内存管理,所以临时矩阵可能在一段时间内不会被丢弃。