当使用5-fold交叉验证创建模型时,将创建5个不同的模型。最终模型的选择可以有所不同:
- 最佳估计(或其他标准)模型中的5倍创建模型或
- 模型在所有数据集上训练时创建。
我理解交叉验证是用于模型检查,而不是用于模型构建。当模型中使用predict_proba
时,这个概率是如何定义的?你能分享一些关于在R和Python的sklearn
中如何使用交叉验证对插入符号进行预测的论文或文章吗?
sklearn.model_selection.cross_val_predict
的文档明确指出,您可以使用method
参数指定预测方法,例如method='predict_proba'
。
如果你这样做,它只是在内部调用该方法而不是predict
。结果是当每个折叠都是验证集时对所做的目标的估计。在交叉验证。
为了它的价值,我不会从得分最高的CV折叠中选择模型。在你所有的数据上训练最终模型。