bert中的反向传播

我想知道当人们说预训练Bert模型时，是否只训练最终的分类神经网络

或

随着分类神经网络的反向传播，变压器内部是否有更新

在预训练过程中，如果模型(权值的更新)是完整的训练。此外，BERT是在屏蔽语言模型目标而不是分类目标上训练的。

在预训练中，你通常用大量的通用数据训练一个模型。因此，它必须与特定于任务的数据和特定于任务的目标进行微调。

所以，如果你的任务是对数据集x进行分类，你可以相应地微调BERT。现在，您将添加一个特定于任务的层(分类层，在BERT中，他们在[CLS]令牌上使用了密集层)。在微调时，您更新预训练的模型权重以及新的任务特定层。

相关内容