BERT Heads Count



从我阅读的文献来看,

Bert Base有12个编码器层和12个注意头。伯特大24层编码器和16的关注。

为什么Bert有16个注意头?

注意头的数量与(编码器)层的数量无关。然而,每个模型的隐藏尺寸之间存在固有的联系(bert-base的隐藏尺寸为768,bert-large的隐藏尺寸为1024),这在《变形金刚》的原始论文中有所解释。本质上,作者的选择是,自注意块大小(d_k)等于隐藏维数(d_hidden)除以正面数(h),或者正式的

d_k = d_hidden / h

由于标准选择似乎是d_k = 64,我们可以从参数中推断出最终大小:

h = d_hidden / d_k = 1024 / 64 = 16

,这正是你在bert-large中看到的值。

最新更新