数据不平衡的文本分类

Am试图将10000个文本样本分类为20个类。其中4个类每个只有1个样本，我尝试SMOTE来解决这种不平衡，但我无法为只有一个记录的类生成新的样本，尽管我可以为超过1个样本的类生成样本。有什么建议吗？

在SMOTE上可以找到一个很好的解释者(以及为什么它可能对采样不足的类无效的问题的潜在答案(。

我认为这个问题不能通过现成的数据扩充策略轻易解决。一种可能是简单地复制示例，但这不会为模型添加新信息。

以下是你也可以尝试的其他几种策略：

相关内容