Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    视觉transformer ViT

    CV领域
    1
    1
    76
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by Alice_恒源云

      之前看了一篇关于多模态预训练模型和视觉transfomer相关的
      这是前置条件,因此来看看ViT是什么东西
      An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale ICLR2021
      本来以为很复杂,其实你要之前做NLP,就很容易理解
      模型架构如下:
      QQ截图20210724192559.png
      总的来说,按照我自己的理解
      图像的输入 一般都是 b 3 h w ,而文本而言,维度是b length dim,比图像少一个维度,因此
      需要将图像的维度降一维,这就是patch projection
      QQ截图20210724193113.png
      爱因斯坦求和之前学张量网络也用过,这里就不细说了
      因为这篇文章是做分类,借鉴bert的cls思想,在前面一个加了一个cls
      其实类似于faster-rcnn,所以输入的是图片,和我之前想的不太一样

      参考文献:
      https://arxiv.org/pdf/2010.11929.pdf
      https://zhuanlan.zhihu.com/p/308301901

      1 Reply Last reply Reply Quote 2
      • First post
        Last post