Python 模型中的目标编码



我用python做了一个模型,它使用目标编码。我使用了一个包含 25000 行的数据集,该数据集分为训练数据集和测试数据集。该模型确实工作正常。但是,我现在想在完全新的数据上运行模型 - 比如说 excel 文件中只有一行数据。我需要知道它的代码,如果有人可以提供帮助,我将不胜感激。我对python有点陌生。 这是我编写的代码部分,用于从 25000 行创建训练和测试数据集,并在训练时训练模型并在测试中预测。但是,我需要运行此模型的代码,该模型使用目标编码来预测新数据。如果我需要发布更多代码以获得更清晰,请告诉我。

train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.2)
rf = RandomForestClassifier(n_jobs=-1)
rf.fit(train_x.values, train_y.values)
pred_train = rf.predict(train_x.values)
pred = rf.predict(test_x.values)

谢谢

你可能想看看这个笔记本的评论部分- 这里

"在我们对训练数据和目标应用目标编码之后。我们可以得到一个类别的结果,例如 A 列有 a,b,c。然后我们计算 A 列中每个 a,b,c 的平均值并将其应用于测试数据。然后,我们将它应用于使用 pd.merge 函数进行测试。

最新更新