2016-03-14 1445 views
4

如果数据既包含分类连续变量又包含连续独立变量,那么可用于检查多重共线性的不同方法有哪些?分类变量的多重共线性

我可以通过将分类变量转换为虚拟变量来使用VIF吗?由于我无法在互联网上找到任何参考资料,是否存在一个基本缺陷?

+0

是的,你可以使用VIF与分类变量作为傻瓜 - 我想这就是你在逻辑回归中使用它们的方式。看看[这个问题](http://stats.stackexchange.com/questions/67309/how-to-test-for-multicollinearity-among-dummy-explanatory-variables) – lrnzcig

回答

0
Can I use VIF by converting categorical variables into dummy variables ? 

是的,你可以。这种方法没有根本的缺陷。

if the data contains both categorical and continuous independent variables? 

多重共线性不关心它是一个分类变量还是一个整数变量。分类变量没有什么特别之处。将分类变量转换为二进制,并将它们视为所有其他变量。

我假设你的担心是分类变量必须相互关联,这是一个有效的关注。假设参考类别中病例比例较小的情况。假设有3个分类变量:超重,正常,体重不足。我们可以把它变成2个分类变量。那么,如果一个类别的数据非常小(与正常人一样,100人中有5人,所有其他95人都体重不足或超重),即使分类变量与其他变量不相关,指标变量也必然具有较高的VIF回归模型。

What are the different measures available to check for multicollinearity 

检测多重共线性的一种方法是获取数据的相关矩阵,并检查相关矩阵的特征值。

特征值接近0表示数据相关。