具有离散和连续属性的聚类算法？

有没有人知道在离散属性和连续属性上执行聚类的好算法？我正在研究识别一组类似客户的问题，并且每个客户都具有离散和连续属性（Think客户类型，此客户产生的收入金额，地理位置等）。具有离散和连续属性的聚类算法？

传统上的算法K-means或EM用于连续属性，如果我们有连续属性和离散属性的混合，该怎么办？

2009-05-06 Matt W

如果我没有记错的话，那么COBWEB算法可以使用离散属性。

而且您还可以对离散属性执行不同的“技巧”以创建有意义的距离度量标准。

您可以谷歌聚类的分类/离散属性，第一次点击之一：ROCK: A Robust Clustering Algorithm for Categorical Attributes。

2009-05-06 13:53:48 Anonymous

你也可以看看affinity propagation作为一个可能的解决方案。但为了克服连续/离散的困境，您需要定义一个函数来估计离散状态。

2009-05-06 13:55:21 nasmorn

我实际上会向用户展示一对离散属性，并要求他们定义它们的接近度。你会给他们一个从[同义词..非常外国]或类似的范围。有很多人这样做，你会得到一个非线性属性值被广泛接受的接近函数。

2009-05-07 11:03:56

R是聚类的好工具 - 标准方法是使用daisy计算混合数据上的相异矩阵，然后使用agnes与该矩阵进行聚类。

cba module on CRAN包括基于ROCK对二元预测变量进行聚类的函数。

2009-05-07 23:08:15 bubaker

如何将每个分类属性转换为一系列N-1二元指示符属性（其中N是类别数）？你不应该害怕高维度，因为稀疏表示（例如可以使用mahout的SequentialAccessSparseVector）。一旦你这样做了，你可以使用经典的K-means或任何标准的仅用于数字的聚类算法。

2013-05-31 16:39:41 ihadanny

回答