视觉transformer ViT
-
之前看了一篇关于多模态预训练模型和视觉transfomer相关的
这是前置条件,因此来看看ViT是什么东西
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale ICLR2021
本来以为很复杂,其实你要之前做NLP,就很容易理解
模型架构如下:
总的来说,按照我自己的理解
图像的输入 一般都是 b 3 h w ,而文本而言,维度是b length dim,比图像少一个维度,因此
需要将图像的维度降一维,这就是patch projection
爱因斯坦求和之前学张量网络也用过,这里就不细说了
因为这篇文章是做分类,借鉴bert的cls思想,在前面一个加了一个cls
其实类似于faster-rcnn,所以输入的是图片,和我之前想的不太一样参考文献:
https://arxiv.org/pdf/2010.11929.pdf
https://zhuanlan.zhihu.com/p/308301901