使用BERT等预训练模型进行文档分类



我正在寻找分类文档的方法。例如,我有一堆带有文本的文件,我想给文件贴上标签,看它是否属于体育、食品、政治等。我能用BERT来处理带有>500美元,还是有其他模型可以有效地完成这项任务?

BERT的最大序列长度为512个令牌(注意,这通常远少于500个单词),因此您不能一次将整个文档输入BERT。如果您仍然希望将模型用于此任务,我建议您

  1. 将每个文档拆分为BERT可处理的块(例如512个令牌或更少)
  2. 将所有文档块单独分类
  3. 根据最频繁预测的块标签对整个文档进行分类,即进行多数投票

在这种情况下,您需要做的唯一修改就是在BERT之上添加一个完全连接的层。

但是,这种方法可能非常昂贵。还有一种方法是将文本文档表示为单词向量袋,然后在数据上训练分类器。如果您不熟悉BOW,维基百科的条目是一个很好的起点。它可以作为各种分类器的特征向量,我建议你尝试SVM或kNN。

最新更新