2016-01-29 53 views
3

我试图在没有成功拟合模型后获得混淆矩阵。使用相同的代码和决策树,相反,没有问题。这是我的代码:对象中的缺失值-R中的随机森林混乱矩阵

library(caret) 
library(randomForest) 

training <- read.csv("https://d396qusza40orc.cloudfront.net/predmachlearn/pml-training.csv", na.strings=c("#DIV/0!"), row.names = 1) 

to_exclude <- nearZeroVar(training) 
training <- training[, -to_exclude] 

set.seed(1234) 
train_idx <- createDataPartition(training$classe, p = 0.8, list = FALSE) 
train <- training[train_idx,] 
validation <- training[-train_idx,] 

rf_model <- randomForest(classe ~ . , data=train, method="class") 
rf_validation <- predict(rf_model, validation, type="class") 

confusionMatrix(rf_validation, validation$classe) 

这就是错误:

Error in na.fail.default(list(classe = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, : missing values in object

我也试试这个:

table(rf_validation, validation$classe) 

这就造成了同样的错误。 如果我用:

dt_model <- rpart(classe ~ ., data=train, method="class") 

相反,一切工作正常。

我错过了什么?

+3

'randomForest()'''默认'na.action = na.fail'。因此,它打破了(在我的机器上)。例如,如果您愿意忽略“NA”值,您可以将其设置为“na.action = na.omit”。 – lukeA

+0

#coursera问题 – jtlz2

回答

1

正如@lukeA所述,由于NA值,我遇到了问题。 为我工作的另一种选择是清理我的数据多一点点:

training <- training[, colSums(is.na(training)) == 0] 

由NA值形成的删除功能。