2017-06-19 139 views
1

主成分分析中的变异数据是指什么?我的意思是假设我们有5个特征,或者我们可以说5个维度,那么数据的变化将是什么?意味着,它是指每个特征中数据的变化吗?以及为什么PCA处于数据最大变化的方向?为什么主成分是最大方差的方向?

回答

1

This来自Cross Validated的答案为您的问题提供了极好的答案。

最重要的是,要回答为什么PCA是在数据的最大变化方向?,我建议阅读一些关于信息论的基础知识,this blog article对这个主题进行了很好的介绍。举一个具体的例子,想象一下你的5个特征中有一个是所有的特征。这很直观,它不会帮助你;所有样本共享相同的功能。这个特殊功能的变化将为零 - 它没有任何信息。零熵,如果你愿意的话,这是一个完美的秩序,意味着没有任何东西会沿着给定的方向发生变化:一个明确的候选从数据中被删除。增加方差=增加信息内容。

相关问题