2016-11-29 104 views
0

我已经在微阵列基因表达集中识别出疾病病例和对照中感兴趣的基因并应用了PCA。我想使用弹性网络回归建立一个模型,可以确定哪些主要组件可以预测源(案例与控制),但我不确定如何做到这一点,即输入什么作为x和y变量。任何帮助都将非常感谢!主成分分析和弹性净回归

+0

可能与'biostars'平台有关。 – Prradep

回答

1

某些形式的子集选择(即您所指的弹性净回归)适合'惩罚'模型并确定最有效的预测因子不适用于PCA或PCR(主成分回归)。 PCR将数据集减少为“n”个成分,不同的主成分指的是数据内不同的“方向”。第一主成分是具有最方差数据内的方向上,第二主成分是具有第二最方差数据内的方向等

如果要输入:

summary(pcr.model) 

它将返回一个表格,其中包含每个主要组件在响应(即您的y)中解释的方差量。您会注意到主要组件解释的累计变化总量。

PCR的想法是,您可以选择这些的一个子集(如果您的数据是适用的 - 即大部分差异在前几个主要组件中捕获),可以大大降低数据的维度(可以让你说出PC1与PC2的关系图)。请注意,PCR通常用于序数据或分类数据类型的分类,所以如果您的数据不是这样,可能使用其他的。 但是,如果您想知道哪些预测指标是有用的并应用弹性网型回归,我会推荐使用套索。我还会推荐ISLR书,其中包含所有重要频率主义建模技术的优秀R演练。

+0

不错的解释!为了清楚起见,PCA'components'与模型的'parameters'不一样。用于预测健康/患病的基因是你的“参数”。 PCA组件通常没有明确的解释。 – mitoRibo

+0

是的,确切地说。 PCR对于预测是有利的,而不是推断。 – Garland