2017-03-06 66 views
0

我用简单的K均值聚类在秧鸡如何评价我的聚类算法

聚类后,这一结果显示

迭代次数开始聚集:9

内平方集群总和错误:570.1974952009115

我的问题:

  1. 错误平方和的数量很大这是否意味着我的群集数是错误的?以及如何定义乐观的群集数量?

  2. 如何将数据拆分为训练和测试集以评估性能?以及如何知道正确的比例?

  3. 如何衡量SSB

回答

0

1.1在K-意味着它是谁决定多少个簇来接。你可能已经知道了。

1.2在k-means中没有最佳数量的聚类,如“函数图的全局最大值”所示。您决定尊重您的业务问题。另见“elbow method”,这是一个在实践中很少有效的半经验程序。

1.3您可能在您的数据中有异常值,这些异常值使任何聚类操作的平方和大。无论您选择多少个群集,异常值总是远离您的群集中心。

2.1没有“最佳”百分比分割。

2.2您可以使用可视化来检查群集中是否有重叠。让观众看到“决策界限”也更容易理解。

3.1什么是SSB?

+0

**我听说过(运行k-means的次数是可以负担得起的,每次都改变种子,记录解决方案,让你得到最小的平方和错误总和),你能帮我怎么做种子法如果有可用的代码,你可以帮助我**你可以帮助我的资源解释了这个话题**对不起,我是说SSE是它的值(在群集平方误差内)或它是不同的 – m12345