小贝子编程

使用拟合在数据库上的XGBoost模型对新数据库进行预测

本文关键字：数据库模型 XGBoost 拟合 python database machine-learning regression xgboost
更新时间 : 2023-09-20
英文 : Using a XGBoost model that was fitted on a database to make predictions on a new database

我有一个数据库，我已经将其拆分为训练和测试数据集，在训练集上拟合XGBoost模型，并使用测试集上的拟合模型进行预测。到目前为止一切都很好。

现在，如果我保存拟合的模型，并想在一个全新的数据集上使用它来进行预测，我的新数据库应该是什么样子？

它必须包含确切数量的功能吗？

分类特征在两个数据库中必须具有相同的类别吗？

我想，你正在使用一个热编码，比如说颜色功能？

因此，从技术上讲，为了避免测试数据中出现额外或新的特征，您应该使用train+测试数据来形成特征向量。

对整组训练+测试数据进行一次热编码/验证。现在分离出training-dataset和testing-dataset
假设[v1，v2，v3…vn]是来自列车+测试数据的功能名称列表
现在使用此功能名称形成训练数据。如预期的那样，与训练数据中的第五颜色相对应的特征列将全部为零and THATS FINE
对测试数据使用相同的功能列表，现在你不应该在即将出现的新功能方面有任何差异

希望能澄清。

相关内容

最新更新