2016-11-18 65 views
0

我有一个大约1GB的数据集,它不适合内存(因为当我们在R中应用LM时,它也会创建其他消耗内存的变量)。我想知道在这种情况下是否还有一种方法可以在R中使用这些漂亮的机器学习软件包(例如,glm,随机森林,神经网络)来进行分析?我赞赏任何建议和参考。将R中的机器学习包应用于大型数据集

+3

检查[HPC任务视图](https://cran.r-project.org/web/views/HighPerformanceComputing.html)的“大内存和内存不足数据”部分 –

回答

2

请参阅high-performance task view on CRAN,特别是有关大内存和内存不足数据的部分。

或者:您可能需要付钱,但可以考虑使用Microsoft R Server。 MRS,以前称为Revolution R Enterprise,旨在打破处理大型数据集时的内存障碍。它适用于Windows和Linux,还允许使用SQL Server,Teradata,Hadoop(Cloudera,Hortonworks和HDInsight)和Spark进行数据库内分析。

披露:我是微软员工。

1

如果您可以使用Spark,请考虑sparklyr(免费)。

+2

这将是一个对洪的回答很好的评论,但它本身并不是一个真正的答案。 –

+0

答案在下面。我删除了“评论”。 – dommer