1

目前我遇到这样一个问题:如何将两种(或多种)特征结合起来作为构建分类模型的最终特征?例如,我想做一个分类模型来预测药物与靶点的相互作用,这里每种药物我可以得到500个特征,每个目标我可以得到800个特征(这两种特征是独立的其他)。众所周知,一种简单的方法可以将这两种特征结合在一起(即每种药物 - 靶标对的500 + 800 = 1300特征)。如何将两种(或多种)特征合并为一种最终特征来构建分类模型?

有没有人知道其他方法做这种事情,并使用组合的功能来建立分类模型?

回答

2

即使有很多功能,如SVM,也有许多方法可以正常工作。另外,还有一大堆关于这方面的文献,包括SVD,PCA,MDS,功能选择,功能转换......你必须阅读这些内容,我们不能挑选你的魔法弹所有这一切都为你而没有你的数据。

+0

谢谢@ Anony-Mousse。我了解一些方法,如PCA,SVD一点。另一种方法,如本文中使用的核心方法:“蛋白质 - 配体相互作用预测:一种改进的化学基因组学方法”。药物靶点对K = K_target kronecker K_drug'的核心。那么可以使用基于内核的方法来构建模型。但是,计算机和内存的成本是巨大的,我想知道,是否有一些替代方案来构建药物靶点对的内核或一些方法来结合不同的域特征。谢谢。 – BioChemoinformatics 2015-02-11 19:43:15

+0

你有什么人的记录?内核函数本身很好地扩展。尝试线性SVM。 – 2015-02-11 20:39:59

+0

对于目标,我有664条记录,对于药物,我有445条记录。所以计算'K_target kronecker K_drug',它是K_664 * 664 kronecker K_445 * 445。最终的矩阵太大而无法保存到内存中。 – BioChemoinformatics 2015-02-12 18:20:31

0

随机森林使用信息增益为您的分类任务选择最佳功能。分类器适用于多个功能源和类型。例如,您可以组合连续属性和离散属性。

由于您必须多次迭代所有功能,但是内存性能和分类速度相当不错,因此培训时间稍长一些。