在特定领域继续训练预先训练的BERT模型的最简单方法是什么



我想使用一个预先训练的BERT模型,以便在文本分类任务中使用它(我使用的是Huggingface库(。然而,预训练的模型是在与我不同的领域上训练的,我有一个很大的未标记数据集,可以用来微调它;在旅途中";在对特定任务(BertForSequenceClassification(进行训练时,数据集太小,无法使语言模型适应特定领域。最好的方法是什么?谢谢

让我们先澄清几点,以减少一些歧义。

  1. BERT使用两个预训练目标:掩蔽语言建模(MLM(和下一句预测
  2. 您提到有一个大型的未注释数据集,您计划使用它来微调BERT模型。这不是微调的工作方式。为了微调预训练的模型,您需要一个注释的数据集,即document&用于序列分类下游任务的类对

那么你能做什么呢?首先,使用由特定领域词汇组成的未注释数据集来扩展您的通用领域标记器。然后,使用这个扩展的标记器,你可以继续对MLM和/或NSP目标进行预训练,以修改你的单词嵌入。最后,使用带注释的数据集对模型进行微调。

最新更新