1

无监督降维算法将一个矩阵NxC1作为输入,其中N是输入向量的数量,C1是每个向量的分量数量(向量的维数)。结果,它返回一个新的矩阵NxC2(C2 < C1),其中每个矢量的分量数量较少。使用无监督降维的模糊聚类

模糊聚类算法将一个矩阵N * C1作为输入,其中N又是输入向量的数量,C1是每个向量的分量数量。结果,它返回一个新的矩阵NxC2(通常低于C1的C2),其中每个向量的每个分量都表示向量属于相应聚类的程度。

我注意到两类算法的输入和输出在结构上是相同的,只有结果的解释发生了变化。而且,在没有模糊聚类实现scikit学习,所以以下问题:

是否有意义使用降维算法进行模糊聚类? 例如,将FeatureAgglomerationTruncatedSVD应用于根据从文本数据中提取的TF-IDF矢量构建的数据集并将结果解释为模糊聚类是否无效?

回答

2

在某种意义上,当然。这种情况取决于你想如何使用下游结果。

考虑SVD截断或排除主要组件。我们已经投射到一个新的方差保持空间中,对新的歧管结构几乎没有其他限制。原始数据点的新坐标表示可能对某些元素具有较大的负数,这有点奇怪。但是可以毫不费力地移动和重新调整数据。

然后可以将每个维度解释为集群成员资格权重。但考虑模糊聚类的一个常见用途,即生成一个硬聚类。注意模糊聚类权重有多容易(例如,只取最大值)。考虑在新的尺寸减小的空间中的一组点,例如< 0,0,1>,< 0,1,0>,< 0,100,101>,< 5,100,99>。如果阈值化,模糊聚类会给出类似于{p1,p2},{p3,p4}的东西,但是如果我们在这里取最大值(即将尺寸减少的轴作为成员,则可以得到{p1,p3},{p2,p4例如,当k = 2时,当然,可以使用比max更好的算法来导出硬成员资格(比如说通过查看配对距离,这对我的例子来说很有用);这样的算法被称为聚类算法当然,不同的降维算法可能对此更好或更差(例如,重点在于保存数据点之间的距离而非差异的MDS更自然地类似群集)但是从根本上来说,许多维度降低算法隐含地保留关于数据所在的基本流形的数据,而模糊聚类矢量仅保存关于数据点之间关系的信息(可能或可能存在)可能不会隐式编码该其他信息)。

总的来说,目的有点不同。聚类旨在查找类似数据的组。特征选择和降维被设计成通过改变嵌入空间来减少数据的噪声和/或冗余。通常我们用后者来帮助前者。