小贝子编程

为什么基于树的模型不需要对标称数据进行独热编码?

本文关键字：数据编码于树不需要模型 machine-learning model random-forest one-hot-encoding boosting
更新时间 : 2023-09-14
英文 : why tree-based model do not need one-hot encoding for nominal data?

我们通常对标称数据进行单热编码，以使计算特征之间的距离或权重更合理，但我经常听说像随机森林或提升模型这样的基于树的模型不需要做独热编码，但我在网上搜索过，不知道，谁能告诉我为什么或指导我一些材料来弄清楚？

但我经常听到基于树的模型，如随机森林或提升模型不需要做独热编码

这不一定是真的，因为某些实现会将不同的逻辑应用于数值和分类变量，因此最好为您正在使用的库适当地编码分类变量。

但是，有时对决策树模型使用数字编码可能是可以的，因为它们只是在寻找拆分数据的位置，例如，它们不会将输入乘以权重。与此形成对比的是神经网络，该神经网络会将red=1, blue=2解释为蓝色是红色的两倍，这显然不是您想要的。

相关内容