处理R中大数据的有效方法

我有一个巨大的csv文件，1.37 GB，并且在R中运行glm时，它崩溃，因为我没有分配足够的内存。你知道，经常出现的错误..处理R中大数据的有效方法

是否有没有其他的软件包ff和bigmemory的替代品，因为他们似乎不适合我，因为我的列是一个整数和字符的混合，而且似乎与两个包我必须指定我的列是什么类型，无论是字符或整数。

我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使用？

2017-10-08 HeyJane

您的计算机没有2GB内存？也许有时间升级。 – lmo

我有8 GB，但glm计算崩溃。 – HeyJane

做了http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works中的任何指针类似于在sas工作？ – hrbrmstr

我会承认，仅仅因为你的样本数据需要1.37 GB并不都意味着1.37 GB将是令人满意的做用glm包所有的计算首先解决你的问题。最有可能的是，你的一个计算结果可能会至少达到1.37 GB的倍数。

对于第二部分，这里的一个实际解决方法是仅对您的1.37 GB数据集进行合理的子样本。你真的需要使用全部原始数据集中的数据点来构建模型吗？或者，可以说10％的子样本也会给你一个统计显着的模型？如果你降低了数据集的大小，那么你用R解决了内存问题。

请记住，R在内存中完全运行，这意味着一旦你超出了可用内存，你可能会走运。

2017-10-08 15:09:08

第一部分：确切地说。第二部分：我想使用我所有的数据，因为我想制作一个复杂的模型。我需要知道我在我的估计中有多自信，所以我需要使用我所有的数据。因此我的问题。 – HeyJane

@HeyJane我不确定你需要使用你的所有数据。为了测试这个，你可以说一个10％的数据子样本，并将该子集的描述性统计数据与原始数据集进行比较。 –

是的，我需要使用我所有的数据来评估我对自己估计的确信程度。而且，我想要一个非常复杂的模型。在所有应有的尊重下，你都不会解决我的问题。您只是说“减少数据” – HeyJane

回答