与 RMSE 的模型比较

我是数据科学新手，想寻求模型选择的帮助。

我已经建立了 8 个模型来预测薪水与年度经验、职位名称和位置。然后，我尝试通过 RMSE 比较 8 个模型。但最后，我不确定我应该选择哪种型号。(在m心中，我更喜欢模型8，因为在随机森林测试后，结果比回归更好，然后我使用了所有数据集来制作最终版本，但解释coef比回归更难( 你能帮忙你喜欢哪种模型吗，为什么？实际上，数据科学家是像这样做这个过程，还是他们有自动的方式来处理？

1 RMSElm1：模型：线性回归，数据：训练 80%，测试 20% 无任何插补 = 22067.58

2 RMSElm2：模型：线性回归，数据：训练 80%，测试 20%：插补一些我认为他们给出相同薪水概念的地方 = 22115.64

3 RMSElm3：模型：线性回归+逐步，数据：训练80%，测试20% 无任何插补 = 22081.06

4 RMSEdeep1：模型：深度学习(H2O 包激活 = "整流器"，隐藏 c(5,5(，epochs = 100，(，数据：训练 80%，测试 20%：无任何插补 = 16265.13

5 RMSErf1：模型：随机森林(ntree =10(，数据：训练 80%，测试 20% 没有任何插补 = 14669.92

6 RMSErf2：模型：随机森林(ntree =500(，数据：训练 80%，测试 20% 没有任何插补 [1] 14669.92

7 RMSErf3：模型：随机森林(ntree =10，(数据：K-Fold 10 没有任何插补 [1] 14440.82

8 RMSErf4模型：随机森林(ntree =10(，数据：所有数据集没有任何插补 [1] 13532.74

在回归问题中，mse或rmse是一种确定模型表现如何的方法。首选低均方根或 MSE。因此，请使用给出最低 mse 或 rmse 值的模型，并在测试数据上尝试。集成方法通常给出最佳结果。XGBoost经常用于比赛。

可能存在过度拟合的情况，在训练数据中获得的rmse可能非常低，但在测试数据中获得较高的rmse。因此，使用交叉验证被认为是一种很好的做法。

您可能需要检查它：https://stats.stackexchange.com/questions/56302/what-are-good-rmse-values

相关内容

最新更新

热门标签：