我想知道scikit-learn在使用参数class_weight
时如何更加强调类。是少数抽样的过抽样吗?
我不确定是否有一种方法可以处理所有算法的class_weight
。
决策树(和森林)处理此问题的方式是根据每个样本的类别修改其权重。
您可以将加权样本视为对所有少数类样本进行过采样的更一般情况(使用权重可以"过采样"样本的部分)。
都不是。我认为它反而会影响损失:
- 重量
- 较大的班级损失更大。 重量
- 较轻的班级损失较低。
这个问题在这个线程中进行了更深入的讨论。