数据不平衡的文本分类



Am试图将10000个文本样本分类为20个类。其中4个类每个只有1个样本,我尝试SMOTE来解决这种不平衡,但我无法为只有一个记录的类生成新的样本,尽管我可以为超过1个样本的类生成样本。有什么建议吗?

在SMOTE上可以找到一个很好的解释者(以及为什么它可能对采样不足的类无效的问题的潜在答案(。

我认为这个问题不能通过现成的数据扩充策略轻易解决。一种可能是简单地复制示例,但这不会为模型添加新信息。

以下是你也可以尝试的其他几种策略:

  1. William Wang和Diyi Yang在2015年的这篇论文中描述了一种基于嵌入的增强技术(类似于SMOTE的理论,但在文本数据上效果更好(
  2. Marzieh Fadaee、Arianna Bisazza和Christof Monz在2017年的这篇论文中描述了使用上下文化单词嵌入的第1步
  3. 使用类似WordNetAug的同义词替换库

最新更新