用随机森林模型预测外部数据集



我在python中使用joblib.dump来保存使用随机森林的5倍交叉验证建模的模型。因此,我为每个数据集保存了5个模型:MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在我想使用这些模型来使用predict_proba预测外部数据集,当我的外部数据集中每一行的最终预测是5个模型的平均值时。最好的方法是什么?谢谢您的帮助

首先,您不应该保存交叉验证的结果。交叉验证不是一种训练方法,而是一种评估方案。你应该在你的整个数据集上构建一个单独的模型,并使用它来预测。

如果,由于某种原因,你不能再训练你的模型,你仍然可以通过平均它们来使用这5个预测(因为随机森林本身是树的简单平均集合),但是返回并重新训练应该会给你更好的结果。

最新更新