如果我在XGB模型中具有主导功能,我该怎么办?



我最近在我的数据集中遇到了一个"奇怪"的观察结果。在对 20 个特征进行 XGB 建模后,我绘制了具有最高增益值的前 10 个特征。结果如下所示:

F1         140027.061202
F2          11242.470370
F3           9957.161039
F4           9677.070632
F5           7103.275865
F6           4691.814929
F7           4030.730915
F8           2775.235616
F9           2384.573760
F10          2328.680871

如您所见,与所有其他功能相比,F1在增益方面占主导地位(增益比F2多12倍(。我在测试集上验证了结果,模型没有过度拟合,它给出了不错的结果(与我的品质因数相比(:

F1-score: 0.739812237993 
Accuracy: 0.839632893701 
Precision: 0.63759578607
Recall: 0.881059718486

根据这些结果,得出 F1 特征足以构建模型的结论是否正确?

为了证明这一点,我使用相同的参数重新运行建模,但现在将 F1 作为独立功能。结果只是比以前稍微差一点(并且没有过度拟合(:

F1-score: 0.710906846703 
Accuracy: 0.819880412472 
Precision: 0.607953806173
Recall: 0.85583736242

在这两种情况下,我的 XGB 参数都非常简单:

alg = XGBRegressor( 
n_estimators=200,
max_depth=5,
objective='binary:logistic', 
seed=27,
)
# Fit the algorithm on the data
metric = 'map'
alg.fit(X_train, y_train, eval_metric=metric)

在我排除特征 F1 并重新拟合模型后,我得到了类似的验证指标(稍微差一点(,但在这种情况下,特征 F3 变得"主导",增益非常高 ~ 10000,而特征 F2 是下一个增益值 ~ 10000。

  1. 是否有任何技术可以通过在 F1 上应用某些转换来增强其他功能并提高准确性(或 F1 分数(?
  2. 有没有办法均衡特征增益并改进模型?
  3. 我是否应该尝试"收集"更多可以与F1具有可比增益的功能?

谢谢!

您是否尝试过添加和调整其他参数并使用网格搜索来查找最佳组合?为了防止过度拟合,我可以建议添加:

  • colsample_bytree:构建每棵树时列的子样本比率
  • 子样本
  • :训练实例的子样本比率
  • min_child_weight:防止与特定样本高度特定的学习关系

由于您使用的是 XGBRegressor,请尝试修改目标函数。我还可以建议在构建树时监控验证和训练损失。

参考文档

相关内容

  • 没有找到相关文章

最新更新