3
我使用聚类技术here来聚类大型数据集,这在Mahout示例中给出。但是,当我形象化特定的聚类时,我会看到下图。K意味着使用Mahout进行聚类
我真的很努力理解这实际上意味着,并有几个问题。
- 所有的彩色线条表示什么?
- 这么多集群是什么意思?
- 为什么很少有地方拥挤,为什么其他地方并不拥挤呢?
- 为什么几条彩色线条彼此重叠?
我使用聚类技术here来聚类大型数据集,这在Mahout示例中给出。但是,当我形象化特定的聚类时,我会看到下图。K意味着使用Mahout进行聚类
我真的很努力理解这实际上意味着,并有几个问题。
k-means不是最先进的聚类技术。作为一种可视化技术,圈子是误导性的,它实际上是将数据空间分割成Voronoi单元格(在维基百科上查看它)。它也喜欢相似大小的群集。
我假设不同的颜色表示不同的k-means迭代。它需要几次运行才能优化结果(通常只能达到局部最小值,而不同的运行结果会导致不同的结果)。所以结果不是很稳定,我想。它们只是缓慢移动,这就是为什么它们不会重叠太多。
聚类数量是k-means的参数。通常表示为k
。 k-means无法确定聚类的数量,但是如果使用多个k值运行它,您可以测试哪个结果最适合数据集。
k-means不看密度。你需要一个基于密度的聚类算法。 k-means更喜欢相似大小的簇。你的“k”可能太高了。
由于它们迭代更新,不同的迭代不应该重叠太多。