当微调RoBERTa模型以添加特定的领域知识时,整个过程是什么?



向标记器添加关于域的标记和微调都是必要的吗?

。在微调模型之前将域令牌添加到令牌器是正确的过程吗?b.如果我只是添加域令牌而不进行微调,它可以提高性能吗?c.如果我只是微调而不添加域令牌,它可以提高性能吗?d.为了提高模型的性能,需要多少个领域句子?

感谢我只添加了5K域令牌。我只有几个领域的句子可以微调。

根据您的查询,我试图根据每种情况的一些假设提供答案。

一般来说,标记器本质上是试图表示N维空间中单词(理想情况下是标记)之间的关系。

  1. 你提到的领域与训练数据完全无关吗?
  2. 域是否包含与预训练模型所训练的文本主要不同的单词/句子?示例-纯英语文本与代码-两者看起来都像英语,但在培训时本质上不同

对于上述情况,您可能需要使用自己的数据点从头开始预训练,而不是进行微调。

需要多少文本?我不能用一个数字来说明,但是越多越好,因为它将有助于标记器能够准确地表示文本。

据我所知,你不能直接将文本添加到标记器中,因为标记器也是训练的结果,它学习表示标记之间的关系。

相关内容

  • 没有找到相关文章

最新更新