2011-11-25 89 views
3

我使用聚类技术here来聚类大型数据集,这在Mahout示例中给出。但是,当我形象化特定的聚类时,我会看到下图。K意味着使用Mahout进行聚类

Mahout k-means visualization.

我真的很努力理解这实际上意味着,并有几个问题。

  1. 所有的彩色线条表示什么?
  2. 这么多集群是什么意思?
  3. 为什么很少有地方拥挤,为什么其他地方并不拥挤呢?
  4. 为什么几条彩色线条彼此重叠?

回答

3

k-means不是最先进的聚类技术。作为一种可视化技术,圈子是误导性的,它实际上是将数据空间分割成Voronoi单元格(在维基百科上查看它)。它也喜欢相似大小的群集。

  1. 我假设不同的颜色表示不同的k-means迭代。它需要几次运行才能优化结果(通常只能达到局部最小值,而不同的运行结果会导致不同的结果)。所以结果不是很稳定,我想。它们只是缓慢移动,这就是为什么它们不会重叠太多。

  2. 聚类数量是k-means的参数。通常表示为k。 k-means无法确定聚类的数量,但是如果使用多个k值运行它,您可以测试哪个结果最适合数据集。

  3. k-means不看密度。你需要一个基于密度的聚类算法。 k-means更喜欢相似大小的簇。你的“k”可能太高了。

  4. 由于它们迭代更新,不同的迭代不应该重叠太多。