数据挖掘SSE通过集群K

我正在使用K-Means和集群来处理WEKA。
一般来说，我正在检查项目数据集上的不同算法。
我无法决定我应该选择的最佳SSE /集群比率。
理论上，随着我增加集群，SSE下降，但直到哪里？
发现了一些手指规则，K =（n/2）^ 0.5，其他人可以这样吗？数据挖掘SSE通过集群K

2013-04-22 Chura

请注意，Weka没有很多集群。它主要是一个分类工具。

平方和是很 k-means centric measure。不要用任何其他算法来使用这个度量。这是过度拟合：这是k-means优化的方法，所以它当然会表现得最好（并且通过添加另一个集群，它将能够进一步改进此度量，这一点毫不奇怪）。

如果你想评估一个聚类的质量，最可靠的（但也是可疑的）方法是使用一个标记的数据集。

2013-04-23 08:05:47

我读过，我可能会使用MakeDensityBasedClusterer来查找日志可能性，但是再次，如果我增加clusers可能性会增加（例如，5给-28,8给-27，10给-25） – Chura 2013-04-24 19:31:20

是的。这是内部评估的典型特征。您需要找到一个折衷办法，因为更复杂的模型通常会允许更详细（但不一定更好）的数据模型。一些措施（BIC？）试图进行这种折衷，但我不相信它好得多。它仍然在评估集群如何适合一个相当有限的模型。 – 2013-04-24 22:55:10

回答