将R中的机器学习包应用于大型数据集

我有一个大约1GB的数据集，它不适合内存（因为当我们在R中应用LM时，它也会创建其他消耗内存的变量）。我想知道在这种情况下是否还有一种方法可以在R中使用这些漂亮的机器学习软件包（例如，glm，随机森林，神经网络）来进行分析？我赞赏任何建议和参考。将R中的机器学习包应用于大型数据集

来源

2016-11-18 ftxx

检查[HPC任务视图]（https://cran.r-project.org/web/views/HighPerformanceComputing.html）的“大内存和内存不足数据”部分 –

请参阅high-performance task view on CRAN，特别是有关大内存和内存不足数据的部分。

或者：您可能需要付钱，但可以考虑使用Microsoft R Server。 MRS，以前称为Revolution R Enterprise，旨在打破处理大型数据集时的内存障碍。它适用于Windows和Linux，还允许使用SQL Server，Teradata，Hadoop（Cloudera，Hortonworks和HDInsight）和Spark进行数据库内分析。

披露：我是微软员工。

来源

2016-11-18 14:31:46

如果您可以使用Spark，请考虑sparklyr（免费）。

来源

2016-11-18 14:35:11 dommer

这将是一个对洪的回答很好的评论，但它本身并不是一个真正的答案。 –

答案在下面。我删除了“评论”。 – dommer

将R中的机器学习包应用于大型数据集

回答

相关问题