Kfold Cross Validation and GridSearchCV



好吧,我试图理解算法中如何以及在什么时候应用Kfold CV和GridSearchCV。此外,如果我理解正确,GridSearchCV 用于超参数调整,即参数的哪些值将给出最佳结果,并且 Kfold CV 用于更好地泛化,以便我们像在不同的折叠上进行训练,从而减少偏差如果数据以某种特定方式排序,从而增加泛化。现在的问题是,GridSearchCV不是也使用CV参数进行交叉验证吗?那么为什么我们需要Kfold CV,如果我们这样做,我们是否在GridSearchCV之前这样做?对该过程进行一些概述将非常有帮助。

GridSearchCV是比KFold更高级别的构造。前者使用后者(或其他类似方法(。

KFold 是一个相对低级的构造,它为您提供一系列训练/测试索引。您可以使用这些索引来执行多项操作,包括查找模型的 OOB 性能和/或调整超参数(基本上是根据 OOB 性能以某种方式搜索超参数(。

GridSearchCV是一个更高级别的构造,它采用KFold这样的CV引擎(在其cv参数中(。它使用 CV 引擎搜索超参数(在本例中,对参数使用网格搜索(。

网格搜索用于选择预测算法的超参数的最佳组合(调整估计器的超参数(,而KFold提供训练/测试索引以拆分训练/测试集中的数据。它将数据集拆分为 k 个连续折叠(默认情况下不洗牌(。

然后,每个折叠使用一次作为验证,而剩余的 k - 1 个折叠形成训练集。它用于更好地测量预测准确性(我们可以将其用作模型拟合优度的代理(。

最新更新