sklearn 交叉验证与网格搜索



问题是:当我使用 GridSearch 进行拟合时,我需要做一些事情来进行交叉验证过程?

我知道的事情:

1.- 我可以设置一个评分函数(但不清楚如何做到这一点,至少对我来说)

2.- 如果我没有将"cv"参数传递给 GridSearch 类,那么它使用默认的 3 倍交叉验证。

GridSearch 究竟用我传递的数据做什么?,所有数据都在火车中使用,还是在火车内部拆分并测试数据?

谢谢!

PD:似乎我的分类器过度拟合,因为得分为 100%,但新数据的结果不佳。

请查看 GridSearchCV 文档。它详细描述了您想要的一切。

GridSearch 将针对所有给定的参数值训练给定的估计器,并找到在训练数据上给出最高(或最低,如果使用损失函数)分数的参数。

GridSearchCV将在内部对交叉验证执行相同的操作。估计器的参数可以在GridSearchCV中提供param_grid参数。

对于您的查询:

  1. 评分 - 可以传递此页面上可用的任何字符串(具体取决于分类器)。或者,您可以使用make_scorer传递自己的自定义记分器。
  2. CV - 与 cv 相同。 您可以为多次折叠交叉验证传递一个数字,也可以传递一个 cv 对象。您可以在此页面查看可用的简历迭代器。

相关内容

  • 没有找到相关文章

最新更新