2017-10-08 164 views
1

我有一个巨大的csv文件,1.37 GB,并且在R中运行glm时,它崩溃,因为我没有分配足够的内存。你知道,经常出现的错误..处理R中大数据的有效方法

是否有没有其他的软件包ff和bigmemory的替代品,因为他们似乎不适合我,因为我的列是一个整数和字符的混合,而且似乎与两个包我必须指定我的列是什么类型,无论是字符或整数。

我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使用?

+3

您的计算机没有2GB内存?也许有时间升级。 – lmo

+0

我有8 GB,但glm计算崩溃。 – HeyJane

+0

做了http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works中的任何指针类似于在sas工作? – hrbrmstr

回答

1

我会承认,仅仅因为你的样本数据需要1.37 GB并都意味着1.37 GB将是令人满意的做用glm包所有的计算首先解决你的问题。最有可能的是,你的一个计算结果可能会至少达到1.37 GB的倍数。

对于第二部分,这里的一个实际解决方法是仅对您的1.37 GB数据集进行合理的子样本。你真的需要使用全部原始数据集中的数据点来构建模型吗?或者,可以说10%的子样本也会给你一个统计显着的模型?如果你降低了数据集的大小,那么你用R解决了内存问题。

请记住,R在内存中完全运行,这意味着一旦你超出了可用内存,你可能会走运。

+0

第一部分:确切地说。第二部分:我想使用我所有的数据,因为我想制作一个复杂的模型。我需要知道我在我的估计中有多自信,所以我需要使用我所有的数据。因此我的问题。 – HeyJane

+0

@HeyJane我不确定你需要使用你的所有数据。为了测试这个,你可以说一个10%的数据子样本,并将该子集的描述性统计数据与原始数据集进行比较。 –

+1

是的,我需要使用我所有的数据来评估我对自己估计的确信程度。而且,我想要一个非常复杂的模型。在所有应有的尊重下,你都不会解决我的问题。您只是说“减少数据” – HeyJane

相关问题