我必须对一个真正巨大的矩阵(大约300.000x100.000的值超过100Gb)执行k均值聚类。我想知道我是否可以使用R软件来执行此操作或Weka。 我的电脑是一个8Gb内存和数百GB可用空间的多处理器。具有真正大矩阵的K-means
我有足够的空间进行计算,但加载这样的矩阵似乎是R的问题(我不认为使用bigmemory软件包会帮助我和大矩阵自动使用我所有的RAM然后我的交换文件如果不是足够的空间)。
所以我的问题是:我应该使用什么软件(最终与其他软件包或自定义设置关联)。
感谢您的帮助。
注:我使用linux。
你很可能会在运行有R这样的问题:存储在矩阵这个数据将索引限制为最大整数值(2147483647),并且您有更多的元素。这不是内存限制,而是使用整数为数据建立索引的限制。你可以采样矩阵吗? – Noah 2011-06-16 13:37:33
为什么你想要一次聚集所有300,000个物体?为什么不采取更小的样本,将其聚类,然后将剩余物体分配到最近的群集? – 2011-06-16 14:12:34
你在寻找多少个集群?是否有已知聚类的样本进行验证? – denis 2011-06-17 16:00:35