在数据挖掘回归问题中,有一个名为"质量"的列,其值为:
['Excellent','Good','Average','Fair','Poor']
所以我认为"好"比"平均"好,我将它们更改为带有映射的序数:
'Excellent' : 5
'Good' : 4
'Average' : 3
'Fair' : 2
'Poor' : 1
所以我的问题是:
将值更改为数字后,是否可以对这个序数进行均值和方差缩放,例如,带有熊猫的标准缩放器
这个问题无法回答。
将序数编码为整数是一种启发式方法。例如,使用 -100、-10、0、5、10 或其缩放版本可能会获得更好的结果。或者可能根本不重要!
如果您想知道这是否必要,则需要调查数据和过程的统计模型。这很难,你必须自己做(因为我们没有你的数据,问题,没有足够的时间)。