用随机森林模型预测外部数据集

我在python中使用joblib.dump来保存使用随机森林的5倍交叉验证建模的模型。因此，我为每个数据集保存了5个模型:MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在我想使用这些模型来使用predict_proba预测外部数据集，当我的外部数据集中每一行的最终预测是5个模型的平均值时。最好的方法是什么?谢谢您的帮助

首先，您不应该保存交叉验证的结果。交叉验证不是一种训练方法，而是一种评估方案。你应该在你的整个数据集上构建一个单独的模型，并使用它来预测。

如果，由于某种原因，你不能再训练你的模型，你仍然可以通过平均它们来使用这5个预测(因为随机森林本身是树的简单平均集合)，但是返回并重新训练应该会给你更好的结果。

相关内容

最新更新

热门标签：