我想知道当人们说预训练Bert模型时,是否只训练最终的分类神经网络
或
随着分类神经网络的反向传播,变压器内部是否有更新
在预训练过程中,如果模型(权值的更新)是完整的训练。此外,BERT是在屏蔽语言模型目标而不是分类目标上训练的。
在预训练中,你通常用大量的通用数据训练一个模型。因此,它必须与特定于任务的数据和特定于任务的目标进行微调。
所以,如果你的任务是对数据集x进行分类,你可以相应地微调BERT。现在,您将添加一个特定于任务的层(分类层,在BERT中,他们在[CLS]
令牌上使用了密集层)。在微调时,您更新预训练的模型权重以及新的任务特定层。