2015-07-10 75 views
-1

我正在使用Weka进行实习,但我对数据挖掘有一点认识。因此,也许有人知道如何将以下结果应用于我的数据集以通过群集获取所有数据?我现在使用的方法是计算我的属性和每个群集的平均值之间的距离,然后按最近的值对它们进行分类。但是这种方法对我来说太粗糙了。我们如何在Weka中使用聚类结果?

=== Run information === 

Scheme:weka.clusterers.EM -I 100 -N -1 -M 1.0E-6 -S 100 
Relation:  wcet_cluster6 - Copie-weka.filters.unsupervised.attribute.Remove-R1-3,5-weka.filters.unsupervised.attribute.Remove-R5-12 
Instances: 467 
Attributes: 4 
       max 
       alt 
       stmt 
       bb 
Test mode:evaluate on training data 

=== Model and evaluation on training set === 

EM 

Number of clusters selected by cross validation: 6 


      Cluster 
Attribute   0  1  2  3  4  5 
       (0.28) (0.11) (0.25) (0.16) (0.04) (0.17) 
================================================================== 
max 
    mean   9.0148 10.9112 11.2826 10.4329 11.2039 10.0546 
    std. dev. 1.8418 2.7775 3.0263 2.5743 2.2014 2.4614 

alt 
    mean   0.0003 19.6467 0.4867 2.4565 44.191 8.0635 
    std. dev. 0.0175 5.7685 0.5034 1.3647 10.4761 3.3021 

stmt 
    mean   0.7295 77.0348 3.2439 12.3971 140.9367 33.9686 
    std. dev. 1.0174 21.5897 2.3642 5.1584 34.8366 11.5868 

bb 
    mean   0.4362 53.9947 1.4895 7.2547 114.7113 22.2687 
    std. dev. 0.5153 13.1614 0.9276 3.5122 28.0919 7.6968 



Time taken to build model (full training data) : 4.24 seconds 

=== Model and evaluation on training set === 

Clustered Instances 

0  163 (35%) 
1  50 (11%) 
2  85 (18%) 
3  73 (16%) 
4  18 ( 4%) 
5  78 (17%) 


Log likelihood: -9.09081 

感谢您的帮助!

回答

0

我认为没有人可以真正回答这个问题。一些提示我的头顶。

您已使用EM clustering algorithm,请参阅维基百科页面上的动画gif。从Weka中的文档内容简介:

“EM分配一个概率分布,每个 表明它属于每个集群的概率实例。”

你要的是这个复杂的输出是真的吗? 它也为你选择了多个群集(除非你限制这个数字)。

在weka 3.7中,您可以使用Preprocess对话框中的无监督属性过滤器“ClusterMembership”,将您的数据集替换为集群分配的结果。不过,您需要选择一个参考属性。默认情况下,它选择最后一个。这造成难以解释的输出。

+0

Thanx为这个线索..我找到了我想要的东西。当然,对于在预处理中进行聚类的可能性你是对的......这非常有帮助。 – madago

+0

发布之后,我意识到你也可以使用'AddCluster'过滤器,值得一试。 – knb

相关问题