K意味着使用Mahout进行聚类

我使用聚类技术here来聚类大型数据集，这在Mahout示例中给出。但是，当我形象化特定的聚类时，我会看到下图。K意味着使用Mahout进行聚类

Mahout k-means visualization.

我真的很努力理解这实际上意味着，并有几个问题。

2011-11-25 Pavan

k-means不是最先进的聚类技术。作为一种可视化技术，圈子是误导性的，它实际上是将数据空间分割成Voronoi单元格（在维基百科上查看它）。它也喜欢相似大小的群集。

我假设不同的颜色表示不同的k-means迭代。它需要几次运行才能优化结果（通常只能达到局部最小值，而不同的运行结果会导致不同的结果）。所以结果不是很稳定，我想。它们只是缓慢移动，这就是为什么它们不会重叠太多。
聚类数量是k-means的参数。通常表示为k。 k-means无法确定聚类的数量，但是如果使用多个k值运行它，您可以测试哪个结果最适合数据集。
k-means不看密度。你需要一个基于密度的聚类算法。 k-means更喜欢相似大小的簇。你的“k”可能太高了。
由于它们迭代更新，不同的迭代不应该重叠太多。

2011-11-25 22:00:14

回答