2013-04-22 128 views
0

我正在使用K-Means和集群来处理WEKA。
一般来说,我正在检查项目数据集上的不同算法。
我无法决定我应该选择的最佳SSE /集群比率。
理论上,随着我增加集群,SSE下降,但直到哪里?
发现了一些手指规则,K =(n/2)^ 0.5,其他人可以这样吗?数据挖掘SSE通过集群K

回答

0

请注意,Weka没有很多集群。它主要是一个分类工具。

平方和是 k-means centric measure。不要用任何其他算法来使用这个度量。这是过度拟合:这是k-means优化的方法,所以它当然会表现得最好(并且通过添加另一个集群,它将能够进一步改进此度量,这一点毫不奇怪)。

如果你想评估一个聚类的质量,最可靠的(但也是可疑的)方法是使用一个标记的数据集。

+0

我读过,我可能会使用MakeDensityBasedClusterer来查找日志可能性,但是再次,如果我增加clusers可能性会增加(例如,5给-28,8给-27,10给-25) – Chura 2013-04-24 19:31:20

+0

是的。这是内部评估的典型特征。您需要找到一个折衷办法,因为更复杂的模型通常会允许更详细(但不一定更好)的数据模型。一些措施(BIC?)试图进行这种折衷,但我不相信它好得多。它仍然在评估集群如何适合一个相当有限的模型。 – 2013-04-24 22:55:10