聚类在非常大的稀疏矩阵上？

我想在一个非常大的矩阵上做一些（k均值）聚类。聚类在非常大的稀疏矩阵上？

该矩阵大约500000行×4000列但非常稀疏（每行只有几个“1”值）。我想要解决2000个群集。

我有两个问题： - 有人可以推荐一个开源平台或工具来做到这一点（也许使用k-means，也许有更好的东西）？ - 如何最好地估计算法需要完成的时间？我曾试过weka，但几天后终止了这项工作，因为我无法分辨需要多少时间。

谢谢！

这是一个实时应用程序或您自己的自我发展？ – user373215 2010-08-26 23:01:01

重新在http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix。 – 2011-12-20 20:04:34

2010-08-26 23:00:13 Doug

对于你的情况，我想你的问题是只有在输入的大小。

我建议“cluto”作为大型和稀疏数据集的好工具。这是写在C.我已经尝试了大约400个列约17百万行。它运作得很快。

2013-06-16 21:17:22 user2146628

你可以尝试R中SPARCL包，它实现了稀疏的K均值和层次聚类。不容易理解艰难

2014-08-08 17:00:14 svural

要小心，sparcl在特征选择中是“稀疏的”，并且不能解决相似性矩阵的n^2存储问题。 – Chris 2014-12-03 20:47:51

回答