如何使用快速文本处理不平衡的标签数据?

在FastText中，我有不平衡的标签。处理它的最佳方法是什么？

Fasttext似乎可以很好地处理不平衡的数据。根据常见问题

另请注意，这种损失被认为是针对不平衡的类，即某些类比其他类更频繁。

在我们的例子中，我们有一个非常偏斜的数据集，其中包含200+ 个类和 20% 的类包含80% 的所有数据。

在我们的数据中，即使有这种高度扭曲的数据，我们对类别中的文本也有明确的定义。

示例：多数类的文本：">嘿，我需要一台电脑和一只鼠标来打开互联网并在StackOverflow中发布编程答案">

少数民族课的文字：">嘿，请给我以下物品：鸡蛋、生菜、洋葱、西红柿、牛奶和小麦？

由于 FastText 处理 WordNGrams 和分层拆分，如果你有一个非常明确的类别，就像我上面的情况一样，不平衡不是问题，因为算法的性质。

参考：高效文本分类的技巧包 - 阿曼德·乔林、爱德华·格雷夫、彼得·博亚诺夫斯基、托马斯·米科洛夫

相关内容