2011-10-08 55 views
1

fuzzy c-means可以应用于非数值数据集吗?即分类或混合数值和分类.. 如果是(我希望如此:():模糊c-表示分类数据

  • 我们如何计算集群中心

如果没有,什么是另类..如何模糊聚类这些数据

我所需要的响应,请帮助

注:我用的Jacard的系数,计算2点之间的距离,但还是没有得到计算集群中心看到的样子附件enter image description herejacard coefficient

+0

为什么它没用或不清楚?请告诉我 – AWRAM

回答

4

您必须将数据转换为数字形式。有这样做的,他们两个是不同的方式:

  • 功能计数的使用向量(在,例如,文本分类常见)
  • 使用一热表示,其中一个分类功能,可以采取上ñ不同的值被表示为ñ比特串,只有个在其允许的范围值“如果第一个功能具有位设为”。

这两个都是很多机器学习程序在底层进行的非常常见的转换。此外,您可能想要尝试与欧几里得不同的度量标准。 ESP。以一次性表示,但根据数据,L1标准(曼哈顿/城市街区距离)可能更合适。

除此之外,只需将给定的公式应用于转换后的数据集。

+0

谢谢你的回答,可以请你检查更新后的问题 – AWRAM

+0

@AWRAM:我不认为Jaccard系数在一般情况下会产生平均值,所以你需要切换到数字表示或[* k * -medoids](http://en.wikipedia.org/wiki/K-medoids)算法 –

+0

假设我们将要素转换为二进制表示法,例如我有3个点在一个簇A中,每个成员具有一个成员值如下p1(1000,0.5(成员资格))p2(0100,0.7)p3(0001,0.4)。在这种情况下如何计算均值? – AWRAM