以 xgb 为单位的权重参数之间的差异.DMatrix 和超参数列表中的scale_pos_weight?

我有点难以理解xgb.DMatrix中的weight函数与param列表中的sum_pos_weight参数之间的区别。我正在经历以下使用希格斯数据的代码;

由于数据不平衡，作者定义了一个权重参数：

weight <- as.numeric(dtrain[[32]]) * testsize / length(label)
sumwpos <- sum(weight * (label==1.0))
sumwneg <- sum(weight * (label==0.0))

但是，第 32 列已经是一个weight变量，所以作者正在修改一个已经定义的权重变量？

然后，修改后的weight变量被设置为xgb.DMatrix的 "weight" 参数：

xgmat <- xgb.DMatrix(data, label = label, weight = weight, missing = -999.0)

此外，在参数列表中，作者有："scale_pos_weight" = sumwneg / sumwpos,。

所以scale_pos_weight是sumneg的函数，这是weight的函数，a previously defined weight (column 32)的函数。所以我很困惑。

当您设置

xgmat <- xgb.DMatrix(data, label = label, weight = weight, missing = -999.0)

weight应该是与数据行对应的向量

例如，如果您有以下数据：

A B C
1 1 1 1
2 2 2 2

您需要将weight设置为 2 个权重的向量

weight <- c(1, 2)

因此，第一个事件的权重为 1，第二个事件的权重为 2。你问自己为什么好？假设事件 1 发生了 1 次，事件 2 发生了 2 次，您希望对它们进行共同响应权重，特别提及该事件发生的时间量。

以下是使用权重的更多示例：

scale_pos_weight通常在具有"不平衡数据"时使用。例如，假设您有一个分类问题，其中 5% 的数据为 1,95% 的数据为 0，您希望为每个正">事件"赋予更多的权重。所以你可以设置 scale_pos_weight = 19(或如作者所写：sumneg/sumpos)

至于"作者"重新定义权重。如果没有完整的代码，我无法知道他在那里做了什么，但我认为他正在对权重进行某种规范化。

相关内容