我有一个巨大的csv文件,1.37 GB,并且在R中运行glm时,它崩溃,因为我没有分配足够的内存。你知道,经常出现的错误..处理R中大数据的有效方法
是否有没有其他的软件包ff和bigmemory的替代品,因为他们似乎不适合我,因为我的列是一个整数和字符的混合,而且似乎与两个包我必须指定我的列是什么类型,无论是字符或整数。
我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使用?
我有一个巨大的csv文件,1.37 GB,并且在R中运行glm时,它崩溃,因为我没有分配足够的内存。你知道,经常出现的错误..处理R中大数据的有效方法
是否有没有其他的软件包ff和bigmemory的替代品,因为他们似乎不适合我,因为我的列是一个整数和字符的混合,而且似乎与两个包我必须指定我的列是什么类型,无论是字符或整数。
我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使用?
我会承认,仅仅因为你的样本数据需要1.37 GB并不都意味着1.37 GB将是令人满意的做用glm
包所有的计算首先解决你的问题。最有可能的是,你的一个计算结果可能会至少达到1.37 GB的倍数。
对于第二部分,这里的一个实际解决方法是仅对您的1.37 GB数据集进行合理的子样本。你真的需要使用全部原始数据集中的数据点来构建模型吗?或者,可以说10%的子样本也会给你一个统计显着的模型?如果你降低了数据集的大小,那么你用R解决了内存问题。
请记住,R在内存中完全运行,这意味着一旦你超出了可用内存,你可能会走运。
您的计算机没有2GB内存?也许有时间升级。 – lmo
我有8 GB,但glm计算崩溃。 – HeyJane
做了http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works中的任何指针类似于在sas工作? – hrbrmstr