从我阅读的文献来看,
Bert Base有12个编码器层和12个注意头。伯特大24层编码器和16的关注。
为什么Bert有16个注意头?
注意头的数量与(编码器)层的数量无关。然而,每个模型的隐藏尺寸之间存在固有的联系(bert-base
的隐藏尺寸为768,bert-large
的隐藏尺寸为1024),这在《变形金刚》的原始论文中有所解释。本质上,作者的选择是,自注意块大小(d_k
)等于隐藏维数(d_hidden
)除以正面数(h
),或者正式的
d_k = d_hidden / h
由于标准选择似乎是d_k = 64
,我们可以从参数中推断出最终大小:
h = d_hidden / d_k = 1024 / 64 = 16
,这正是你在bert-large
中看到的值。