2016-06-14 107 views
2

我看到在gridsearchcv中最好的参数是根据cross-validation确定的,但我真正想要做的是根据one held out validation set而不是cross validation来确定最佳参数。在gridsearchcv sklearn中举办了培训和验证集

不知道是否有办法做到这一点。我发现了一些类似的帖子,其中定制了cross-validation folds。然而,我真正需要的是在一组上进行训练并验证验证集上的参数。

有关我的数据集的更多信息基本上是由panda创建的text series type

+0

您是否尝试过寻找到gridsearchcv类的CV参数。它可以采取你想要的分割。您可以将您的验证集附加到训练集并传递一个可在训练和验证时进行分割的迭代? –

回答

2

我没有想出答案我自己的问题,通过使用PredefinedSplit

for i in range(len(doc_train)-1): 
    train_ind[i] = -1 

for i in range(len(doc_val)-1): 
    val_ind[i] = 0 

ps = PredefinedSplit(test_fold=np.concatenate((train_ind,val_ind))) 

然后在gridsearchCV参数

grid_search = GridSearchCV(pipeline, parameters, n_jobs=7, verbose=1 , cv=ps) 
相关问题