有时,当将具有分类列的数据帧拆分为测试和训练集时,训练集将不包含分类变量的所有级别。当你再训练模型,并试图预测测试集,预测将失败: 例如: x <- data.frame(...) # data frame with columns with very dispersed categorical variables
set.seed(123)
smp_size <- floor(0.75 *
我的数据库是像这样的: db <- data.frame(var1 = c("A", "B", "C", "D", "E"), var2 = c("X", "X", "Y", "Y", "Y"),
var3 = c("G", "H", "G", "G", "K"))
db
var1 var2 var3
A X G
B X H
C Y G