sklearn.model_selection.GridSearchCV
的文档说
由搜索选择的估算器,即在遗漏的数据上给出最高分(或最小损失,如果指定(的估计器。如果改装=假,则不可用。
。
所选参数是那些最大化遗漏数据的分数的参数,除非传递了显式分数,在这种情况下将改用该分数。
SO的很多人也使用这个术语。
什么是"遗漏的数据"?它是交叉验证的遗漏部分,例如数据集的 1/10 吗?
数据是如何被sklearn.model_selection.GridSearchCV
遗漏的?
从文档中,此网格搜索方法接受一个名为cv
的参数:
cv : int,交叉验证生成器或可迭代的,可选的
这决定了 KFold 交叉验证中K
的值。它还提供了您可以遵循的其他策略。
对于整数/无输入,如果估计器是分类器,y 是二进制或多类,则使用 StratifiedKFold。在所有其他情况下,使用 KFold。
因此,为了回答您的问题,网格搜索循环遍历参数空间,并针对每个参数进行 3 倍交叉验证。正如您可以猜到的,这将涉及在每一步中留下一些(在本例中为 1/3rs(数据以计算预测精度。这是被遗漏的数据。