稀疏矩阵中聚类元素的距离度量标准

我尝试使用K-means基于大约1200个二进制变量对大约12000个元素进行聚类。传统的距离度量标准（欧洲人，曼哈顿，汉明，莱文斯坦）都没有产生令人满意的结果。稀疏矩阵中聚类元素的距离度量标准

我设计了以下指标。

DIST（X，Y）= P的最小（X = 0 | Y = 1） P（Y = 0 | X = 1）

有没有人使用类似的方法来这类问题？使用这个指标有没有明显的缺陷？我对数据挖掘相对较新，希望得到任何反馈。

感谢

来源

2011-03-09 David

什么是你尝试建模域？您能否使用来自域的洞察进行群集？在这个一般的环境中可以说很少。我会尝试dimension reduction以便首先获得更有意义的功能，然后再进行群集，但使用领域知识可以在此帮助。

来源

2011-03-13 08:21:31

您可以使用Jaccard距离二元属性。假设你在比较2行A和B.

M11 - is the number of attributes where both Ai=Bi=1 
M01 - is the number of attributes where Ai=0 and Bi=1 
M10 - is the number of attributes where Ai=1 and Bi=0

的的Jaccard系数将是

J = M11/(M11+M10+M01)

的的Jaccard距离将是：

D=(M01+M10)/(M11+M10+M01)

来源

2016-12-26 11:11:14

稀疏矩阵中聚类元素的距离度量标准

回答

相关问题