我正在使用随机森林对响应变量进行建模。当我查看OOB图时,平均平方误差会随着树木数量的增加而下降。该减少的解释是什么?
通常,更多的树等于模型中的更多功能/参数。ML模型中的更多功能始终减少训练错误。这仅仅是由于这样的事实是,如果这些附加功能是无助的,那么这些功能将不使用,并且训练错误至少将与具有更少功能的模型保持相同。
但是,这并不意味着添加更多功能/参数始终是一个好主意,因为减少训练误差并不意味着概括误差的减少。换句话说,您的模型可能过于适应培训数据,但可能不会显示测试数据的错误降低。寻找理想数量的树木数量的一种很好的方法是将测试错误随着树木数量的增加而绘制测试误差,并选择测试错误开始高原的数量。