2011-09-18 75 views
3

我有一个约8万观察值和5个字符变量的数据集“X” - 称它们为A,B,C,D和E.我试图计算D和E之间的jaro-winkler统计量与RecordLinkage包:处理数据块

library(RecordLinkage) 
X$jw = jarowinkler(X$D, X$E) 

的问题是,更多的记忆保持习惯了,直到计算机只是冻结。是否有任何方法可以自动在“块”中进行处理,而事先不必事先手动将X分割成合理的小尺寸并使用各个子集?

换句话说,是否有任何内置函数可以在不需要事先做好分割和处理的情况下进行分割和处理?

回答

0

那么,最简​​单的解决方案可能是使用nrows参数read.table(或CSV或其他)。将nrow设置为较小的值,然后遍历这些段,删除不需要的对象,并随时调用gc()

+0

目前,这似乎确实是最不痛苦的选择。 – user702432