使用无监督降维的模糊聚类

无监督降维算法将一个矩阵NxC1作为输入，其中N是输入向量的数量，C1是每个向量的分量数量（向量的维数）。结果，它返回一个新的矩阵NxC2（C2 < C1），其中每个矢量的分量数量较少。使用无监督降维的模糊聚类

模糊聚类算法将一个矩阵N * C1作为输入，其中N又是输入向量的数量，C1是每个向量的分量数量。结果，它返回一个新的矩阵NxC2（通常低于C1的C2），其中每个向量的每个分量都表示向量属于相应聚类的程度。

我注意到两类算法的输入和输出在结构上是相同的，只有结果的解释发生了变化。而且，在没有模糊聚类实现scikit学习，所以以下问题：

是否有意义使用降维算法进行模糊聚类？例如，将FeatureAgglomeration或TruncatedSVD应用于根据从文本数据中提取的TF-IDF矢量构建的数据集并将结果解释为模糊聚类是否无效？

2015-10-13 Romain G

在某种意义上，当然。这种情况取决于你想如何使用下游结果。

考虑SVD截断或排除主要组件。我们已经投射到一个新的方差保持空间中，对新的歧管结构几乎没有其他限制。原始数据点的新坐标表示可能对某些元素具有较大的负数，这有点奇怪。但是可以毫不费力地移动和重新调整数据。

然后可以将每个维度解释为集群成员资格权重。但考虑模糊聚类的一个常见用途，即生成一个硬聚类。注意模糊聚类权重有多容易（例如，只取最大值）。考虑在新的尺寸减小的空间中的一组点，例如< 0,0,1>，< 0,1,0>，< 0,100,101>，< 5,100,99>。如果阈值化，模糊聚类会给出类似于{p1，p2}，{p3，p4}的东西，但是如果我们在这里取最大值（即将尺寸减少的轴作为成员，则可以得到{p1，p3}，{p2，p4例如，当k = 2时，当然，可以使用比max更好的算法来导出硬成员资格（比如说通过查看配对距离，这对我的例子来说很有用）;这样的算法被称为聚类算法当然，不同的降维算法可能对此更好或更差（例如，重点在于保存数据点之间的距离而非差异的MDS更自然地类似群集）但是从根本上来说，许多维度降低算法隐含地保留关于数据所在的基本流形的数据，而模糊聚类矢量仅保存关于数据点之间关系的信息（可能或可能存在）可能不会隐式编码该其他信息）。

总的来说，目的有点不同。聚类旨在查找类似数据的组。特征选择和降维被设计成通过改变嵌入空间来减少数据的噪声和/或冗余。通常我们用后者来帮助前者。

来源

2016-08-18 17:17:42 user3658307

使用无监督降维的模糊聚类

回答

相关问题