BERT Heads Count

从我阅读的文献来看，

Bert Base有12个编码器层和12个注意头。伯特大24层编码器和16的关注。

为什么Bert有16个注意头?

注意头的数量与(编码器)层的数量无关。然而，每个模型的隐藏尺寸之间存在固有的联系(bert-base的隐藏尺寸为768,bert-large的隐藏尺寸为1024)，这在《变形金刚》的原始论文中有所解释。本质上，作者的选择是，自注意块大小(d_k)等于隐藏维数(d_hidden)除以正面数(h)，或者正式的

d_k = d_hidden / h

由于标准选择似乎是d_k = 64，我们可以从参数中推断出最终大小:

h = d_hidden / d_k = 1024 / 64 = 16

，这正是你在bert-large中看到的值。

相关内容

最新更新

热门标签：