让我首先说我已经阅读了很多有关交叉验证的文章,看起来有很多困惑。我的理解仅仅是这样的:使用插入符号包应用k-fold交叉验证模型
- 进行k倍交叉验证,即10倍,以了解10倍的平均误差。
- 如果可以接受,则在整个数据集上训练模型。
我正在尝试使用R中的rpart
构建决策树并利用caret
包。以下是我正在使用的代码。
# load libraries
library(caret)
library(rpart)
# define training control
train_control<- trainControl(method="cv", number=10)
# train the model
model<- train(resp~., data=mydat, trControl=train_control, method="rpart")
# make predictions
predictions<- predict(model,mydat)
# append predictions
mydat<- cbind(mydat,predictions)
# summarize results
confusionMatrix<- confusionMatrix(mydat$predictions,mydat$resp)
我有一个关于脱字符串应用程序的问题。我已阅读A Short Introduction to the caret Package列车部分,它在重新采样过程中指出“最佳参数集”已确定。
在我的例子中,我是否正确地编码了它?我是否需要在我的代码中定义rpart
参数或者我的代码是否足够?