什么是"the left out data"?"sklearn.model_selection"如何省略数据。网格搜索CV'?



sklearn.model_selection.GridSearchCV的文档说

由搜索选择的估算器,即在遗漏的数据上给出最高分(或最小损失,如果指定(的估计器。如果改装=假,则不可用。

所选参数是那些最大化遗漏数据的分数的参数,除非传递了显式分数,在这种情况下将改用该分数。

SO的很多人也使用这个术语。

什么是"遗漏的数据"?它是交叉验证的遗漏部分,例如数据集的 1/10 吗?

数据是如何被sklearn.model_selection.GridSearchCV遗漏的?

从文档中,此网格搜索方法接受一个名为cv的参数:

cv : int,交叉验证生成器或可迭代的,可选的

这决定了 KFold 交叉验证中K的值。它还提供了您可以遵循的其他策略。

对于整数/无输入,如果估计器是分类器,y 是二进制或多类,则使用 StratifiedKFold。在所有其他情况下,使用 KFold。

因此,为了回答您的问题,网格搜索循环遍历参数空间,并针对每个参数进行 3 倍交叉验证。正如您可以猜到的,这将涉及在每一步中留下一些(在本例中为 1/3rs(数据以计算预测精度。这是被遗漏的数据。

最新更新