2016-07-23 150 views
1

我有20行60列的系列,即20个例子,每个60个参数。StratifiedKFold输出处理

kfold = StratifiedKFold(Y = encoded_Y,n_folds = 10,随机播放=真,random_state =种子) The output consists of two columns

我想知道什么是第二列是什么意思凭什么它选择两个索引。为什么不采取三个指标?

Furthur,我想知道如何交叉验证功能拍摄这个系列作为“CV”参数的输入。 “cv”通常是一个整数。

结果= cross_val_score(估计器,X,encoded_Y,CV = kfold)

回答

0

如同在此sklearn.cross_validation所有交叉验证的是在对索引的迭代器。在每一对中,第一项是列车指数列表,第二项是测试指数列表。

the example you bring第一项包含一对这里的一切除1,17是火车指数,和1,17是测试索引。

+0

正确!在什么基础上只选择了2组测试指标。为什么不是只有1个指数或者3个指数被这个计划选中。我们如何在这里精确定义测试指数的数量? –

+0

您有20行(列数不相关)。既然你要求K = 10,那么它会给你10倍的1/10的分数(在这种情况下,2)从列车中移出并放入测试中。如果你要求5倍,你会得到4个测试指标。 –