我想在R(1M +行乘6列)中使用大数据集来训练随机森林(使用randomForest
包)以实现回归。不幸的是,当试图一次完成所有事情时,我会得到一个Error in matrix(0, n, n) : too many elements specified
错误,并且在运行数据子集时不能分配足够的内存种类 - 可能低至10,000个观察值。大数据集上的随机森林
看到没有机会我可以在我的机器上添加更多内存,并且随机森林非常适合我尝试建模的过程类型,我非常希望能够完成这项工作。
任何建议或解决方法的想法,非常感谢。
建议使用'proximity = FALSE'作为[joran](http://stackoverflow.com/users/324364/joran)并告诉我们它是否有效。 – smci 2012-10-29 07:03:14
围绕你的问题的一个相对简单的方法是将子集输入矩阵。所有这些数据可能不会给你一个比10K×10K的子集更好的模型。 – 2015-01-15 10:31:41
你看过图书馆(h2o)吗?这对于非常大的问题运行正常,请参阅http://www.r-bloggers.com/benchmarking-random-forest-implementations/ – 2015-08-20 18:50:37