2017-02-02 89 views
0

问题是:当我使用GridSearch进行匹配时,我需要做一些交叉验证过程?sklearn使用GridSearch进行交叉验证

件事,我知道:

1 .-我可以设置一个计分函数(但不是那么清楚该怎么做,至少对我来说)

2:如果我不及格GridSearch类的'cv'参数,然后使用默认的3重交叉验证。

GridSearch与我传递的数据究竟有什么关系?所有数据都在列车中使用,或者在列车内部被分割并测试数据?

谢谢!

PD:似乎我的分类器有过度拟合,因为有100%的分数,但对新数据没有好的结果。

回答

1

请看看GridSearchCV documentation。它详细描述了你想要的一切。

GridSearch将对给定的估计量在所有给定参数值上进行训练,并找到在列车数据上给出最高(或最低,如果使用损失函数)分数的参数。

GridSearchCV将在内部进行交叉验证。可以使用param_grid参数在GridSearchCV中提供估计器的参数。

对于您的疑问:

  1. 得分 - 您可以通过提供on this page任何字符串(取决于您的分类)。或者你可以通过make_scorer传递自己的自定义得分手。
  2. CV - 同样适用于cv。你可以通过一个数字来进行多次交叉验证,或者一个CV对象。你可以在this page上查看可用的cv迭代器。