如何使用快速文本处理不平衡的标签数据?



在FastText中,我有不平衡的标签。处理它的最佳方法是什么?

Fasttext似乎可以很好地处理不平衡的数据。 根据常见问题

另请注意,这种损失被认为是针对不平衡的类,即某些类比其他类更频繁。

在我们的例子中,我们有一个非常偏斜的数据集,其中包含200+ 个类和 20% 的类包含80% 的所有数据

在我们的数据中,即使有这种高度扭曲的数据,我们对类别中的文本也有明确的定义

示例: 多数类的文本:">嘿,我需要一台电脑一只鼠标来打开互联网并在StackOverflow中发布编程答案">

少数民族课的文字:">嘿,请给我以下物品:鸡蛋生菜洋葱西红柿牛奶小麦

由于 FastText 处理 WordNGrams 和分层拆分,如果你有一个非常明确的类别,就像我上面的情况一样,不平衡不是问题,因为算法的性质。

参考:高效文本分类的技巧包 - 阿曼德·乔林、爱德华·格雷夫、彼得·博亚诺夫斯基、托马斯·米科洛夫

最新更新