为什么基于树的模型不需要对标称数据进行独热编码?



我们通常对标称数据进行单热编码,以使计算特征之间的距离权重更合理,但我经常听说像随机森林或提升模型这样的基于树的模型不需要做独热编码,但我在网上搜索过,不知道,谁能告诉我为什么或指导我一些材料来弄清楚?

但我经常听到基于树的模型,如随机森林或提升 模型不需要做独热编码

这不一定是真的,因为某些实现会将不同的逻辑应用于数值和分类变量,因此最好为您正在使用的库适当地编码分类变量。

但是,有时对决策树模型使用数字编码可能是可以的,因为它们只是在寻找拆分数据的位置,例如,它们不会将输入乘以权重。与此形成对比的是神经网络,该神经网络会将red=1, blue=2解释为蓝色是红色的两倍,这显然不是您想要的。

最新更新