2016-01-23 106 views
0

我有一套F功能,例如实验室色彩空间,熵。通过将所有特征连接在一起,我得到了一个尺寸为d的特征矢量(取值在12到50之间,取决于选择哪些特征)。针对2类分类建议的无监督特征选择/提取方法?

我通常会得到1000到5000个新样本,记为x,然后训练高斯混合模型但是我不知道哪些类的特征来自于我所知道的是,只有两类,基于GMM预测,我得到属于类1或2的特征向量的概率。

我现在的问题是:我如何获得最佳子集的功能,例如只有熵和归一化的rgb,这将给我最好的分类准确性?我想这是实现的,如果类可分性增加,到期到特征子集选择

也许我可以利用Fisher的线性判别分析?因为我已经有了从GMM获得的均值和协方差矩阵。但是,我不需要计算每个功能组合的分数吗?

如果这是一种没有前瞻性的方法,并且我处于错误的轨道和/或任何其他建议中,那么获得一些帮助会很好吗?

回答

0

找到“信息”特征的一种方法是使用最大化对数似然性的特征。你可以用交叉验证来做到这一点。

https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf

另一个想法可能是使用另一个无监督算法自动选择功能,如聚类森林

http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

在这种情况下的聚类算法将自动基于信息的数据分割获得。

Fisher LDA不会选择要素,而是将原始数据投影到较低维的子空间。如果您正在研究子空间方法 ,另一个有趣的方法可能是谱聚类,也可能发生子空间中的 或无监督神经网络,例如自动编码器。

希望可以帮到