多状态相关变量编码



我是这方面的新手,正在尝试了解预处理部分的一些知识,我有以下查询:

我知道,如果你的因变量(y(有2个状态,那么你可能不需要对因变量进行特征缩放。但是,在多状态因变量的情况下,如Customer_index(可能的客户(:否,是,可能,NA

如果我使用OnehotEncoder或LabelEncoder,我可能会得到0,1,2,3。但是,我相信,当我尝试将模型拟合为这个时,算法会假设这些变量为序数/加权变量。

我该怎么办。

我发现了一些有用的工件:https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02

提前感谢hep。

我对上面的问题进行了一些研究,我发现一旦我们应用编码,我们无论如何都必须对数据进行缩放,以对特征的权重应用偏差,这对多状态变量也是如此。

说出你的想法。

最新更新