标签编码的Sklearn回归

我正在尝试使用sklearn的线性回归模型来预测幻想玩家的分数。我有每个球员的数字统计数据，当然还有他们的名字，我已经用Label编码器函数进行了编码。我的问题是，当执行线性回归时，包含在训练中的编码值似乎不将其识别为ID，而是将其视为数值。

那么，是否有更好的方法来编码球员的名字，使他们被视为一个ID，这样它就可以识别球员1的平均25分，而球员2的平均20分?或者这种类型的编码甚至可能与线性回归?提前感谢

除了一个热编码(在这种情况下可能会创建太多的列)，平均目标编码完全可以满足您的需要(用其平均目标值编码类别)。但是，在稀有类别的情况下，您应该改变目标泄漏。与sklearn兼容的category_encoders库提供了几个健壮的实现，例如LeaveOneOutEncoder()

相关内容