我正在研究下面的tensorflow transformers实现。
https://www.tensorflow.org/text/tutorials/transformer
我不确定我是否理解正确。当初始化transformer模型时,它需要以无监督的方式在大量原始文本上进行训练,以便它学习语言,然后你可以将其适应特定的任务。
在这个例子中,我不确定训练数据是否用于训练变压器模型本身?看起来只有一个";"拟合";程序这是正确的吗?
Transformer模型最初是在2017年为机器翻译提出的,在那里它直接接受翻译任务的训练。通过自我监督学习对基于Transformer的模型进行预训练的额外步骤后来出现在GPT和BERT等模型中。你正在看的帖子就是前一种方法的一个例子。