我有一个预测量化变量的混合数据(包括定量和分类)。在将模型数据转化为因子之前,我已将其转换为因子。我的数据具有分类变量,其中大多数变量具有超过150个级别。当我尝试将它们提供给glm模型时,由于这些因素具有更多级别,因此它会因内存问题而失败。我们可以设置一个阈值,只接受一定数量的变量。但是,我需要将这些具有更多层次的因素嵌入到模型中。是否有任何方法可以解决这个问题。回归模型表现失败,具有更多级别的因子
编辑:数据集有120000行和50列。当数据用model.matrix
展开时,有4772列。
你能发布错误信息吗?我不清楚这是否与内存有关。 – Fernando
我尝试了不放阈值,RStudio会话被中止。然后,当我探索将阈值拒绝到具有更多级别(> 150)的模型中时,它运行良好。 –
如果您的数据稀疏,使用稀疏矩阵可能会解决问题(例如,软件包'glmnet')。 – Fernando