我有一个数据集,我使用model.matrix()
函数将因子变量转换为虚拟变量。我的数据有10个这样的列,每个列有3个级别(2,3,4),我一直在为它们分别创建虚拟变量。R model.matrix设置
xFormData <- function(dataset){
mm0 <- model.matrix(~ factor(dataset$type) , data=dataset)
mm1 <- model.matrix(~ factor(dataset$type_last1), data = dataset)
mm2 <- model.matrix(~ factor(dataset$type_last2), data = dataset)
mm3 <- model.matrix(~ factor(dataset$type_last3), data = dataset)
mm4 <- model.matrix(~ factor(dataset$type_last4), data = dataset)
mm5 <- model.matrix(~ factor(dataset$type_last5), data = dataset)
mm6 <- model.matrix(~ factor(dataset$type_last6), data = dataset)
mm7 <- model.matrix(~ factor(dataset$type_last7), data = dataset)
mm8 <- model.matrix(~ factor(dataset$type_last8), data = dataset)
mm9 <- model.matrix(~ factor(dataset$type_last9), data = dataset)
mm10 <- model.matrix(~ factor(dataset$type_last10), data = dataset)
dataset <- cbind(dataset, mm0, mm1, mm2, mm3, mm4, mm5, mm6, mm7, mm8, mm9, mm10)
dataset
}
我想知道如果这是错误的程序,对数据运行的randomForest
,并绘制出变量重要性后,它被单独显示,不同的虚拟变量列。所以说61-63栏是第10栏的3个虚拟变量,randomForest
本身就是第62栏,这是一个重要的预测指标。
我有2个问题:
1)可以吗?
2)如果不是,我该如何对虚拟变量进行分组,以便rf知道他们在一起?
您不需要创建虚拟变量:确保它们是因素(而不是数字)就足够了。 – 2012-02-12 23:06:15
@VincentZoonekynd这实际上是http://stackoverflow.com/questions/9145874/r-caret-rfe-variable-selection-for-factors-and-nas/9147316#9147316的后续行动,其中OP发现他的机器学习工作流程*不*使用因子编码功能。 – 2012-02-13 19:27:00