如何为不同的语言创建自定义BERT语言模型?



我想使用转换器创建一个语言翻译模型。然而,Tensorflow似乎只有英语的BERT模型https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/4。如果我想要另一种语言的BERT,最好的方法是什么?我应该创建一个新的BERT还是我可以在另一种语言上训练Tensorflow自己的BertTokenizer ?

拥抱脸模型中心包含大量预训练的单语言和多语言转换器(以及相关的标记器),可以为您的下游任务进行微调。

但是,如果您无法找到适合您的语言的模型,那么从头开始训练是唯一的选择。但是要注意,从头开始训练可能是一项资源密集型任务,需要大量的计算能力。这里有一篇很好的博客文章可以让你开始。

最新更新