所以我有点困惑。
目前,我有一个大约800个实例的数据集。我已经将其分为训练和验证集,因为缺少值,所以我使用了Sklearn和Fit_transform-Ed的SimpleImputer the训练集并进行了转换测试集。我这样做是因为如果我想预测新实例,如果缺少值,我需要像归纳测试集的方式相同的方式将其归为。
现在,我想使用交叉验证来训练和分数模型,但这将涉及使用整个数据集并将其分成不同估计的值适合?
通常,您需要将数据分为三组 - 一个训练集,测试集和验证集。测试集应完全排除在培训之外(您的关注点是正确的。)使用交叉验证时,您不必担心将培训和验证设置分开 - 这就是交叉验证对您所做的!只需将培训设置传递给交叉验证器,允许将其分为幕后训练和验证,并测试测试集中的最终模型(该模型已完全排除在培训过程之外。)