2017-03-02 97 views
0

我想PCA应用于kaggle的泰坦尼克号dataset对应PCA之间的主成分和原始变量

现在我只是把具有数值列和丢弃NaN值,所以我有五个变量,实际上四个,如果我们忽略依赖变量('生存')。

enter image description here

我有这个加载到数据帧DF,如果我使用了PCA五个部分:

pca_model = PCA(n_components=5) 
pca_model.fit(df) 
pca_model.explained_variance_ratio_ 

[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04 
    5.89069784e-05] 

我得到的方差的93%来自于第一个组件。 是否有可能如何从原始变量中获得相同的值?例如。年龄 - > 0.3的差异 票价 - > 0.6

我现在可以通过每个原始变量给出主要组分的百分比吗?

回答

1

PCA的每个组件都是所有原始变量的线性组合。您可以使用pca_model.components_观察不同PCA组件中每个原始变量的作用。