我最近开始使用R进行数据分析。现在,我在排列大型查询数据集时遇到了问题(在ASCII模式下〜1 GB,在我的笔记本电脑的4GB RAM中以二进制模式)。此数据集使用bigmemory::big.matrix
是一个很好的解决方案,但在gbm()
或randomForest()
算法提供这样的矩阵“M”导致错误:big.matrix as data.frame in R
cannot coerce class 'structure("big.matrix", package = "bigmemory")' into a data.frame
类(M)输出如下因素:
[1] "big.matrix"
attr(,"package")
[1] "bigmemory"
有没有办法将big.matrix
实例正确传递到这些算法中?
如果其他解决方案失败,您可能想尝试革命。我不知道它是否支持'randomForest',但我认为它们支持大内存需求。例如,参见“http:// www.revolutionanalytics.com/products/enterprise-big-data.php”。请注意,它是专有软件。有一个免费的学术版本。 –
你能提供你正在使用的实际的'gbm'和'randomForest'调用吗?具体来说,你是否使用'randomForest'的公式接口? – joran