2017-10-15 111 views
-3

问题是:如何将数据分割为R中的训练和验证?

使用set.seed(4650)加载数据并将其分为75%的培训和25%的验证数据。

这是我有:

setwd("C:/Users/Downloads") 
cat = read.csv("cat.csv") 
set.seed(4650) 
train = sample(c(TRUE, TRUE, TRUE, FALSE), nrow(cat), rep = TRUE) 
validation = (!train) 

,我需要提供训练数据的汇总。

summary(train) 

这给了我

Mode  FALSE TRUE 
logical 830  2463 

难道我分裂以正确的方式将数据?

非常感谢。

回答

2

这是数据拆分在Max Kuhn的book上的插入程序包中完成的方式。

library(caret) 
set.seed(4650) 
trainIndex <- createDataPartition(iris$Species, 
            p = .75, 
            list = FALSE, 
            times = 1) 

irisTrain <- iris[ trainIndex,] 
irisTest <- iris[-trainIndex,] 
0

以下是您可以做的事情。

#Example Data 
df <- iris 

n_train <- round(nrow(iris) * 0.75) 

train <- sample(1:nrow(iris), n_train, replace = FALSE) 
test <- (1:nrow(iris))[-train] 

train_df <- df[train, ] 
test_df <- df[test, ] # same as df[-train, ] 

summary(train_df) 
相关问题