我正在尝试创建一个机器学习模型来预测每个团队的位置,但是我在组织数据方面遇到了困难,以使模型能够从中进行训练。
我想让pandas数据框看起来像这样每届锦标赛都有不断变换队伍的队员。
根据输入的队友,模型对球队的位置进行预测。谁有任何建议,我如何才能使熊猫数据框架这样一个模型可以用作训练数据?我完全被难住了。提前感谢!
关于如何创建此工作表的问题,您可以轻松地获取数据并以上述格式存储。诀窍在于如何将其用作模型的训练数据。我们需要将其转换为数字形式,以便能够用作任何模型的训练数据。因为我们知道大多数情况下团队的最大人数是3人,所以我们可以将三个名字分成三列(如果团队成员少于3人,则保留空白)。现在我们可以使用Label编码或One-hot编码将名称转换为数字。您应该创建到fit
和LabelEncoder
的所有三列的组合列表,然后在每列上分别使用transform
函数(因为名称可能在这3列中共享)。在标签编码方面,我们可以很容易地使用基于树的模型。One-hot编码可能会导致维度的诅咒,因为会有很多名字,所以我不希望在初始的简单模型中使用它。