0
我想PCA应用于kaggle的泰坦尼克号dataset对应PCA之间的主成分和原始变量
现在我只是把具有数值列和丢弃NaN值,所以我有五个变量,实际上四个,如果我们忽略依赖变量('生存')。
我有这个加载到数据帧DF,如果我使用了PCA五个部分:
pca_model = PCA(n_components=5)
pca_model.fit(df)
pca_model.explained_variance_ratio_
[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04
5.89069784e-05]
我得到的方差的93%来自于第一个组件。 是否有可能如何从原始变量中获得相同的值?例如。年龄 - > 0.3的差异 票价 - > 0.6
我现在可以通过每个原始变量给出主要组分的百分比吗?