如何构建一个预测模型，将来会有看不见的分类变量

假设我构建了一个模型，使用过去 10 年的赛马和马匹数据来预测赛马的最终位置，具有以下特征：

horse_age， horse_weight， race_distance，骑师

现在，我想预测一下即将到来的赛季赛马的位置。然而，在这10年中，许多骑师已经退休，新的骑师也加入了，因此会有一些骑师是训练有素的模特看不到的，这与马龄，马体重和比赛距离不同。

我想知道解决这个问题的好方法是什么。我意识到我可以做的一件事是不断重新训练我的模型以合并新数据，但希望听到更多有趣的想法！

我认为这是不可能的。

但是，您可以执行以下操作：假设每场比赛有 10 匹马。从 0 到 9 对它们进行编号。
包括您想要的所有马匹的所有功能，并预测哪匹马将获胜。

例如：马 0：
horse_age0、horse_weight0、race_distance0、骑师
0 马 1：horse_age1、horse_weight1、race_distance1、骑师 1
...
马 9： horse_age9、horse_weight9、race_distance9、骑师9

总共 4*10=40 个功能。

该模型应预测类 0 到 9 之一，指示马数。
不过要小心这种方法，马匹的顺序并不重要，在训练/选择模型时应该考虑到这一点。

您可以通过考虑一对一的方法来简化问题，在这种方法中，您可以评估每对马，看看哪一匹会赢。

相关内容

最新更新

热门标签：