标签编码的Sklearn回归



我正在尝试使用sklearn的线性回归模型来预测幻想玩家的分数。我有每个球员的数字统计数据,当然还有他们的名字,我已经用Label编码器函数进行了编码。我的问题是,当执行线性回归时,包含在训练中的编码值似乎不将其识别为ID,而是将其视为数值。

那么,是否有更好的方法来编码球员的名字,使他们被视为一个ID,这样它就可以识别球员1的平均25分,而球员2的平均20分?或者这种类型的编码甚至可能与线性回归?提前感谢

除了一个热编码(在这种情况下可能会创建太多的列),平均目标编码完全可以满足您的需要(用其平均目标值编码类别)。但是,在稀有类别的情况下,您应该改变目标泄漏。与sklearn兼容的category_encoders库提供了几个健壮的实现,例如LeaveOneOutEncoder()

最新更新