我有一个数据集,其中坏人的年龄百分比非常低。任何人都可以建议一种使用 SAS 平衡此类数据集的方法,以便逻辑回归运行提供更好的结果吗?下面是一个示例。提前感谢!!
ID X1 X2 X3 X4 X5 Target
1 87 400 2 0 0 0
2 70 620 1 0 0 0
3 66 410 3 0 0 0
4 85 300 1 0 0 0
5 100 200 4 0 0 0
6 201 110 1 0 0 0
7 132 513 3 0 0 0
8 98 417 4 0 0 0
9 397 620 1 0 0 1
10 98 700 5 0 0 1
您可以对坏百分比进行过采样,然后在 proc logistic
的 score
语句中使用 priorevent
选项来更正过采样。 网上有很多例子可以帮助您进一步解决这个问题。