2017-02-14 107 views
1

我们是否总是需要删除一列以进行单热编码以防止多重共线性? 在这里的解决方案(https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments#138896)它提到单热编码的多重共线性

@Kevin长安您需要删除对 虚拟变量的一列避免多重共线性的状态。这是一个非常高的状态之间的相关性(独立变量);这意味着 可以从其他人预测。因此,数据中存在一种 干扰,并且如果在数据中存在关于数据的统计结果可能不可靠。

在这里的解决方案中,没有迎合多重 https://www.kaggle.com/sharmasanthosh/allstate-claims-severity/exploratory-study-on-ml-algorithms

我想知道是不是必须的,或者我们定义为了迎合什么情况呢?

回答

-1

如果我必须回答你的问题"Do we always need to remove a column for one-hot encoding to prevent multicollinearity?",答案是肯定的。

防止多重共线性的常用方法是从模型中删除高度相关的预测变量。如果您有两个或更多VIF较高的因素,请从模型中删除一个。由于它们提供了冗余信息,因此删除其中一个相关因素通常不会减少R平方。

或者您可以使用偏最小二乘回归(PLS)或主成分分析(Principal Components Analysis),这些回归方法将预测变量的数量减少为一组较小的不相关成分。

+0

为什么选择Downvote?你能告诉我什么是错的吗? – Aaron