2009-05-06 58 views
9

有没有人知道在离散属性和连续属性上执行聚类的好算法?我正在研究识别一组类似客户的问题,并且每个客户都具有离散和连续属性(Think客户类型,此客户产生的收入金额,地理位置等)。具有离散和连续属性的聚类算法?

传统上的算法K-means或EM用于连续属性,如果我们有连续属性和离散属性的混合,该怎么办?

回答

0

你也可以看看affinity propagation作为一个可能的解决方案。但为了克服连续/离散的困境,您需要定义一个函数来估计离散状态。

0

我实际上会向用户展示一对离散属性,并要求他们定义它们的接近度。你会给他们一个从[同义词..非常外国]或类似的范围。有很多人这样做,你会得到一个非线性属性值被广泛接受的接近函数。

1

R是聚类的好工具 - 标准方法是使用daisy计算混合数据上的相异矩阵,然后使用agnes与该矩阵进行聚类。

cba module on CRAN包括基于ROCK对二元预测变量进行聚类的函数。

0

如何将每个分类属性转换为一系列N-1二元指示符属性(其中N是类别数)? 你不应该害怕高维度,因为稀疏表示(例如可以使用mahout的SequentialAccessSparseVector)。 一旦你这样做了,你可以使用经典的K-means或任何标准的仅用于数字的聚类算法。