0
我用简单的K均值聚类在秧鸡如何评价我的聚类算法
聚类后,这一结果显示
迭代次数开始聚集:9
内平方集群总和错误:570.1974952009115
我的问题:
错误平方和的数量很大这是否意味着我的群集数是错误的?以及如何定义乐观的群集数量?
如何将数据拆分为训练和测试集以评估性能?以及如何知道正确的比例?
如何衡量SSB
我用简单的K均值聚类在秧鸡如何评价我的聚类算法
聚类后,这一结果显示
迭代次数开始聚集:9
内平方集群总和错误:570.1974952009115
我的问题:
错误平方和的数量很大这是否意味着我的群集数是错误的?以及如何定义乐观的群集数量?
如何将数据拆分为训练和测试集以评估性能?以及如何知道正确的比例?
如何衡量SSB
1.1在K-意味着它是你谁决定多少个簇来接。你可能已经知道了。
1.2在k-means中没有最佳数量的聚类,如“函数图的全局最大值”所示。您决定尊重您的业务问题。另见“elbow method”,这是一个在实践中很少有效的半经验程序。
1.3您可能在您的数据中有异常值,这些异常值使任何聚类操作的平方和大。无论您选择多少个群集,异常值总是远离您的群集中心。
2.1没有“最佳”百分比分割。
2.2您可以使用可视化来检查群集中是否有重叠。让观众看到“决策界限”也更容易理解。
3.1什么是SSB?
**我听说过(运行k-means的次数是可以负担得起的,每次都改变种子,记录解决方案,让你得到最小的平方和错误总和),你能帮我怎么做种子法如果有可用的代码,你可以帮助我**你可以帮助我的资源解释了这个话题**对不起,我是说SSE是它的值(在群集平方误差内)或它是不同的 – m12345