使用拟合在数据库上的XGBoost模型对新数据库进行预测



我有一个数据库,我已经将其拆分为训练和测试数据集,在训练集上拟合XGBoost模型,并使用测试集上的拟合模型进行预测。到目前为止一切都很好。

现在,如果我保存拟合的模型,并想在一个全新的数据集上使用它来进行预测,我的新数据库应该是什么样子?

它必须包含确切数量的功能吗?

分类特征在两个数据库中必须具有相同的类别吗?

我想,你正在使用一个热编码,比如说颜色功能?

因此,从技术上讲,为了避免测试数据中出现额外或新的特征,您应该使用train+测试数据来形成特征向量。

  1. 对整组训练+测试数据进行一次热编码/验证。现在分离出training-datasettesting-dataset
  2. 假设[v1,v2,v3…vn]是来自列车+测试数据的功能名称列表
  3. 现在使用此功能名称形成训练数据。如预期的那样,与训练数据中的第五颜色相对应的特征列将全部为零and THATS FINE
  4. 对测试数据使用相同的功能列表,现在你不应该在即将出现的新功能方面有任何差异

希望能澄清。

最新更新