用于文本分类的一个大型或多个小型模型

我正在研究大型文本数据库(数百万个文本(的分类，这些数据库被标记为数千个类别/子类别(与亚马逊产品数据集非常相似(。

我的问题是，我是否可以通过创建多个模型来获得更高的(通常(准确性，例如

一个模型

我想知道在主要类别及其子类别的文本中使用的词汇是否更容易(并且尺寸更小(和更精确地学习模型？但是，如果主模型预测了错误的主类别，则会出现一个额外的问题 - 那么搜索正确的子类别将没有机会预测正确的结果。

对此有研究吗？有什么经验法则吗？非常感谢！

不了解研究，但可以建议首先对主模型使用精度和召回矩阵(具有多种建模技术(，如果所有类别的任何模型给出的精度和召回值高于阈值，比如说 99.5%，那么你必须按照你的想法去做。如果您未能实现这一目标，请不要担心，请尝试另一种方法。这是关于尝试和观察。让我知道其他任何事情。谢谢。

相关内容