Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    NUS和字节跳动CVPR 2022 Oral新作SSA:基于多尺度特征提取的全新Transformer主干模型

    CV领域
    2
    2
    251
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 189****6672
      189****6672 last edited by Alice_恒源云

      NUS和字节跳动CVPR 2022 Oral新作SSA:基于多尺度特征提取的全新Transformer主干模型

      论文地址:https://arxiv.org/pdf/2111.15193.pdf

      代码地址:https://github.com/OliverRensu/Shunted-Transformer

      摘要

      1. 研究背景:ViT模型在各种计算机视觉任务中显示了令人鼓舞的结果,这归功于它们通过自注意力对图像patches或tokens的长期依赖性建模的能力。
      2. 现存问题:这些模型通常会计算每一层内每个token特征的相似性感受野。然而这种方法不可避免地限制了每个自注意层捕捉多尺度特征的能力,从而导致处理多个不同尺度对象时的性能下降。
      3. 解决方法:论文提出了一种新的通用策略,称为分流自注意力shunted self-attention(SSA),该策略允许VIT在每个注意层的多尺度上对注意力进行建模。
      4. 实验结果:跨各种任务的大量实验证明了SSA的优越性。具体而言,基于SSA的Transformer在ImageNet上能够达到84.0%的顶级精度,而且仅参数和计算成本仅仅为其他最优模型的一半。在相同的参数和计算成本下,在COCO数据集上比Focal Transformer高1.3个mAP,在ADE20K数据集上高2.9mIOU。

      2022-04-07-14-46-53.png

      介绍

      下图是对Vision Transformer(ViT)、Pyramid Vision Transformer(PVT)和具有相同特征图大小的SSA中的注意力机制示意图对比。其中圆的个数表示自注意计算中涉及的tokens数,反映了计算成本。圆圈的大小表示相应token的感受野大小。

      从图中可以看出:与ViT和PVT不同,SSA自适应地合并大目标对象上的圆以提高计算效率,并同时考虑不同尺度的对象

      igTo4imH.png

      从下图注意力图可视化可以看出,PVT 只倾向于沙发和床之类的大对象,而SSA相比之下可以精确地捕捉了大对象旁边的灯光之类的小对象

      2022-04-07-14-47-17.png

      具体方法

      2022-04-07-14-47-32.png

      整个模型如上图所示,整个backbone主干网络是一个多层次结构,分为四层,每一层中有一个线性embedding和本文创新模块shunted Transformer。

      上右图中显示该模块的细节,有两个创新层:shunted self-attention和Detail specific FeedForward,接下来进行详细介绍

      shunted self-attention

      2022-04-07-14-47-42.png

      上图就很简洁的反映了不同注意力的差异:

      1. vit是对每个token,进行全局范围的注意力计算。

      2. swin是基于窗口的注意力,对每个窗口中的所有tokens进行注意力计算。

      3. PVT是对全局K和V进行融合缩小,相当于计算某一个token与一个区域特征的相似度。

      4. 而本文的注意力是在PVT的思路上进一步创新,使用不同大小的K V来表示不同大小区域的特征,所以能够融合多尺度的信息特征。

      本文注意力机制的数学表达式为

      2022-04-07-17-19-00.png

      其中K和V通过MTA模块进行大小缩放的,其实就是一个stride为rir_iri​的卷积层,可以通过rir_iri​来控制尺度大小。

      LE是一个增强模块,本质上就是一个depth-wise卷积层。

      然后自注意力计算方法与传统方法一致,为

      Detail-specific Feedforward Layers

      2022-04-07-14-48-04.png

      传统的feed forward layer一般如上图左所示,简单堆叠FC模块,不同tokens之间没有了信息交流。本文使用了Detail Specific模块来进行cross token信息,其数学表达式如下

      其中DS是一个depth-wise卷积层,用于cross token信息的。

      Patch Embedding

      论文认为将图像处理为一个序列tokens是个很重要的事,ViT直接将输入图像分割为不重叠的16×16个patches。最近研究表明使用卷积操作能够获取更高质量的token序列。

      本论文使用步长为2的7×7卷积层+步长为1的3×3卷积层+步长为2的非重叠projection层来获取下采样率为4的输入特征

      Architecture Details and Variants

      如上图4所示,每个层次中有一个Linear embedding连接,这个Linear embedding是一个步长为2的卷积层,用于下采样。

      为了公正的与其他模型进行比较,本文根据head个数和每个层次中含有block的个数NiN_iNi​设计了下表中的三种变体

      2022-04-07-14-47-55.png

      实验

      为了评估模型的有效性,论文在ImageNet-1K分类任务、COCO目标检测和实例分割任务以及ADE20K语义分割任务上进行对比实验,并进行了一系列消融实验来评估各个模块的有效性

      ImageNet-1K分类对比实验

      2022-04-07-20-11-06.png

      COCO目标检测和实例分割对比实验

      2022-04-07-20-11-18.png

      ADE20K语义分割对比实验

      2022-04-07-20-11-34.png

      2022-04-07-20-11-44.png

      Patch Embedding消融实验

      2022-04-07-20-12-00.png

      token融合(尺度缩放)消融实验

      2022-04-07-20-12-08.png

      Feed-Forward消融实验

      2022-04-07-20-12-26.png

      1 Reply Last reply Reply Quote 3
      • Alice_恒源云
        Alice_恒源云 last edited by

        看来会有个CVPR 2022论文研读系列了~

        1 Reply Last reply Reply Quote 1
        • Referenced by  Alice_恒源云 Alice_恒源云 
        • Referenced by  Alice_恒源云 Alice_恒源云 
        • First post
          Last post