百度-中科院CVPR 2022 Oral新作MixFormer:窗口特征和通道特征融合
-
百度-中科院CVPR 2022 Oral新作MixFormer:窗口特征和通道特征融合
论文地址:https://arxiv.org/pdf/2204.02557.pdf
代码地址:https://github.com/PaddlePaddle/PaddleClas
摘要
- 现存问题:虽然局部窗口自注意在视觉任务中表现显著,但它存在感受野有限和建模能力弱的问题。这主要是因为它在非重叠窗口内形成自注意力,并在通道维度上共享权重。
- 解决方法:论文提出了一种窗口和通道的混合模式来解决以上问题。
- 实验结果:模型在图像分类方面取得了与EfficientNet相当的结果,并且显示出比RegNet和Swin Transformer更好的结果。在MS COCO,ADE20k上的5个密集预测任务中性能显著提升,且计算成本较低。
介绍
论文提出了一种并行设计,将局部窗口自注意力与depth-wise卷积相结合。通过这两个分支来获取窗口内和窗口之间的信息特征,最后进行cat连接起来,并发送到前馈网络(FFN)以获得输出特征。
在上图中,标有通道交互和空间交互的蓝色箭头是论文提出的的双向交互,为更好地在这两个分支中进行表征学习提供了补充信息。
方法
整体架构
模型的整体架构如上图所示,是一个层级模块,每一层具有不同的分辨率特征,每层之间通过一个步长为2的卷积操作进行下采样。
最后使用了一个Projection Layer(一个线性层+激活层)增加通道数到1280来保存更多的特征信息,能够实现更好的分类性能。
架构变体
根据每层中的通道数C和Mixing Block 个数以及自注意力中的head个数设计不同变体
每层中Mixing Block个数的设计原则:最后两层中设计更多的Block,能够实现更好的性能
每层中最重要的就是Mixing Block,接下来进行详细分析。
The Mixing Block
论文中的Mixing Block有两个创新点:
- 采用并行设计parallel design来融合局部窗口自注意力和depth-wise卷积操作
- 提出了两分支双向交互Bi-directional Interactions方案
这两个创新点有效解决了局部窗口自注意力中的感受野小和建模能力弱的限制。
The Parallel Design
局部窗口自注意力虽然能够有效减小计算量,但是限制了感受野的大小,现已经有很多方案用于解决这个问题,如shift、shuffle和卷积等。该论文使用depth-wise卷积来进行窗口间的信息交流。
之前有论文将窗口自注意力和depth-wise卷积顺序操作,该论文认为这样减少了不同特征之间的交互,因此提出了并行设计。并行设计有着两个优势:
- 能够有效解决窗口自注意力机制的较小感受野的限制
- 同时建模窗口内和窗口间的信息联系,更能学习较好的特征表示
具体操作是:使用7×7的窗口大小进行自注意力,使用3×3卷积核大小进行高效卷积操作。
Bi-directional Interactions
窗口自注意力机制只在通道上分为几个head,每个head公用一个全局相似度权重,限制了其建模能力,该论文尝试去生成一个channel-wise动态权重,就是为每个通道赋予独有的权重,并考虑到depth-wise卷积重点关注通道信息,所以论文选择了depth-wise卷积进行通道层面上的信息交互。
由上图可以看出,双向交互包括通道交互和空间交互。
通道交互:
包括一个全局平均池化生成一个一维向量,随后带有BN和GELU激活层的两个1×1的卷积层,最后使用sigmoid生成一个通道注意力,并与窗口注意力分支中的向量V相乘,修正其通道权重。整个过程与SE layer类似。
空间交互:
同样使用带有BN和GELU的两个1×1卷积层,然后通过sigmoid生成一个通道数为1的空间注意力map,并与depth-wise卷积层分支输出特征进行乘积以修正其空间注意力。
整个过程的数学表达式如下:
LN:线性层
W-MSA:Window-based Multi-Head Self-Attention
CONV:Depth-wise Convolution
实验
在ImageNet-1K,MSCOCO和ADE20K数据集上进行了对比实验,并进行了消融实验
Image分类对比实验
COCO目标检测和分割对比实验
ADE20K语义分割对比实验
双向信息交互消融实验
-
Alice_恒源云
-
Alice_恒源云