2010-07-05 490 views
3

我想在一个非常大的矩阵上做一些(k均值)聚类。聚类在非常大的稀疏矩阵上?

该矩阵大约500000行×4000列但非常稀疏(每行只有几个“1”值)。我想要解决2000个群集。

我有两个问题: - 有人可以推荐一个开源平台或工具来做到这一点(也许使用k-means,也许有更好的东西)? - 如何最好地估计算法需要完成的时间?我曾试过weka,但几天后终止了这项工作,因为我无法分辨需要多少时间。

谢谢!

+0

这是一个实时应用程序或您自己的自我发展? – user373215 2010-08-26 23:01:01

+1

重新在http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix。 – 2011-12-20 20:04:34

回答

1

对于你的情况,我想你的问题是只有在输入的大小。

我建议“cluto”作为大型和稀疏数据集的好工具。 这是写在C.我已经尝试了大约400个列约17百万行。 它运作得很快。

Link of the Cluto library

0

你可以尝试R中SPARCL包,它实现了稀疏的K均值和层次聚类。不容易理解艰难

+1

要小心,sparcl在特征选择中是“稀疏的”,并且不能解决相似性矩阵的n^2存储问题。 – Chris 2014-12-03 20:47:51