对于图像或序列,转换器使用的属性是什么



今天我的老师问我一个问题:他说CNN是使用图像或矩阵的平移不变性。那么Transformer使用的属性是什么???

与卷积相比,变换器的两个主要特性使其如此吸引人:

  1. 变换器是置换等变的。这使得transformer对于集合预测非常有用。对于顺序确实重要的序列和图像,使用位置编码/嵌入
  2. 变压器的感受野是整个输入(!(,而不是卷积层的非常有限的感受野

参见第3节和图3:
Shir Amir、Yossi Gandelsman、Shai Bagon和Tali Dekel深度ViT特征作为密集视觉描述符(arXiv 2021(。

最新更新