小贝子编程

变压器培训与针对特定任务的微调

我正在研究下面的tensorflow transformers实现。

https://www.tensorflow.org/text/tutorials/transformer

我不确定我是否理解正确。当初始化transformer模型时，它需要以无监督的方式在大量原始文本上进行训练，以便它学习语言，然后你可以将其适应特定的任务。

在这个例子中，我不确定训练数据是否用于训练变压器模型本身？看起来只有一个"；"拟合"；程序这是正确的吗？

Transformer模型最初是在2017年为机器翻译提出的，在那里它直接接受翻译任务的训练。通过自我监督学习对基于Transformer的模型进行预训练的额外步骤后来出现在GPT和BERT等模型中。你正在看的帖子就是前一种方法的一个例子。

相关内容