0

我有TfidVectorizer和OneVsRestClassifier(SGDClassifier)的管道。这是我想执行的gridSearch的参数:在小数据集上使用GridSearch并在大数据集上应用结果是一个好主意吗?

parameters = {'tfidf-vect__ngram_range': ((1, 1), (1, 3)), 
       'tfidf-vect__stop_words': (None,'english'), 
       'tfidf-vect__min_df': (1e-3,1e-6), 
       'tfidf-vect__max_features': (1e7,1e4), 
       'tfidf-vect__norm': ('l1','l2',None), 
       'tfidf-vect__use_idf': (True, False), 
       'tfidf-vect__sublinear_tf': (True, False), 
       'clf__estimator__alpha': (1e-5, 1e-7), 
       'clf__estimator__loss':('hinge', 'log', 'modified_huber'), 
       'clf__estimator__penalty':(None, 'l2', 'l1','elasticnet'), 
       'clf__estimator__class_weight':("auto", None), 
       'clf__estimator__warm_start':(True,False), 
       'clf__estimator__average':(True,False,4,8,16) 
} 

问题:我想知道这是参数的最佳组合,但我不能在100K情况下与我的计算机上运行一个像这样的gridSearch 。

问题:这种gridSearch的结果对于100k个实例数据集和一个子集允许说10-20k个样本的结果有多相似(可能具有较小的参数集)?

正如你可能已经知道我正在处理文本问题的多标签分类。

谢谢:)

回答

1

是的,这是一个体面的策略。你不能以任何方式保证最好的 - 但他们应该仍然是相当好的。你必须小心,虽然你不适合使用参数搜索的较小数据集。

相关问题