如何构建一个预测模型,将来会有看不见的分类变量



假设我构建了一个模型,使用过去 10 年的赛马和马匹数据来预测赛马的最终位置,具有以下特征:

horse_agehorse_weightrace_distance骑师

现在,我想预测一下即将到来的赛季赛马的位置。然而,在这10年中,许多骑师已经退休,新的骑师也加入了,因此会有一些骑师是训练有素的模特看不到的,这与马龄,马体重和比赛距离不同。

我想知道解决这个问题的好方法是什么。我意识到我可以做的一件事是不断重新训练我的模型以合并新数据,但希望听到更多有趣的想法!

我认为这是不可能的。

但是,您可以执行以下操作: 假设每场比赛有 10 匹马。从 0 到 9 对它们进行编号。
包括您想要的所有马匹的所有功能,并预测哪匹马获胜。

例如:马 0:
horse_age0、horse_weight0、race_distance0、骑师
0 马 1:horse_age1、horse_weight1、race_distance1、骑师 1
...
马 9: horse_age9、horse_weight9、race_distance9、骑师9

总共 4*10=40 个功能。

该模型应预测类 0 到 9 之一,指示马数。
不过要小心这种方法,马匹的顺序并不重要,在训练/选择模型时应该考虑到这一点。

您可以通过考虑一对一的方法来简化问题,在这种方法中,您可以评估每对马,看看哪一匹会赢。

最新更新