ECCV 2022 MMLab&商汤提出TokenMix | 新的图像混合数据增强策略
-
论文标题:TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers
论文地址:https://arxiv.org/pdf/2207.08409.pdf
代码地址:https://github.com/Sense-X/TokenMix
摘要
- 现存问题: CutMix是一种常用的数据增强技术,通常用于训练卷积和transformer视觉网络。它最初旨在鼓励卷积神经网络(CNN)更多地关注图像的全局上下文,而不是局部信息,这大大提高了CNN的性能。然而,对于自然具有全局接受域的基于transformer的架构,它的好处有限。
- 解决方法: 该论文提出了一种新的数据增强技术TokenMix,以提高视觉transformer的性能。TokenMix通过将混合区域划分为多个分离部分,在tokens级别混合两个图像。此外,作者还表明,CutMix中的混合学习目标(一对GT标签的线性组合)可能不准确,有时会违反直觉。为了获得更合适的目标,作者建议根据来自预训练教师模型的两幅图像的神经激活图来分配目标分数。
- 实验结果: 通过对各种视觉变换器架构的大量实验,表明提出的TokenMix有助于视觉transformer专注于前景区域来推断类,并增强其对遮挡的鲁棒性,同时获得一致的性能增益。
算法
在本节中,首先回顾了CutMix的一般过程,并说明了将CutMix应用于transformer的局限性。
然后,提出TokenMix,它通过在token级别混合图像进行图像增强,并使用神经激活图分配目标分数。
Revisiting CutMix Augmentation
为了增强CNN的定位能力,CutMix提出将样本对与随机矩形二元掩模混合。让x∈ RH×W×C和y分别表示训练图像及其标签。给定一对训练样本(xa,ya)和(xb,yb),CutMix生成新的训练样本如下所示:
M表示矩形掩模,该掩模决定在何处drop out并填充两个图像的内容,⊙ 表示元素相乘,λ从Beata(α,α)分布中采样。二进制掩码M是一个随机采样的矩形。与Mixup类似,CutMix将生成图像的混合目标指定为ya和yb的线性组合。
作者认为CutMix中的区域级混合可能不适用于基于transformer的架构。由于CNN主要用于编码局部图像内容,使用CutMix进行训练可以有效防止CNN过度关注局部上下文。然而,基于transformer的架构可能较少受益于CutMix,因为它的所有层都具有全局接收域。此外,混合图像的标签是ya和yb的线性组合,混合比λ仅根据掩模的大小估计,这在图8(b)所示的许多情况下可能不合适。尽管最近有一些方法试图通过选择显著区域来最大化混合图像中的显著性[17,18,33,31]来改进CutMix,但显著区域可能无法正确对应目标类别[2],标签噪声问题仍然严重。
TokenMix
作者提出了TokenMix来混合一对图像以生成混合图像和学习目标。在tokens级别生成掩码M,以鼓励更好地学习长距离依赖性,并根据两个混合图像的基于内容的神经激活图分配混合图像的目标分数,这遵循蒸馏的一般思想,以创建更稳健的目标。
图2显示了TokenMix的概述。首先将输入图像x划分为不重叠的patchesxp∈RHP×WP×(P2⋅C),然后线性投影到视觉tokens。然后,根据掩模输出比λ生成一个随机掩码Mt∈RHP×WP,混合新训练样本
创建如下:
Aai和Abi分别是xa和xb的空间归一化神经激活图的第i个标记。神经激活图由分类头之前的预训练网络的最后一层生成。
不掩码整个矩形区域,而是将掩码区域划分为多个分离的部分。对于每个部分,随机选择掩码tokens的数量和纵横比。将最小tokens数设置为14,并在[0.3,1/0.3]范围内对纵横比进行对数均匀采样。
重复掩码图像的一部分,直到掩码到tokens的总数达到预定义的比率λHWP2。除非另有规定,将λ设置为0.5,而不是从β分布中采样λ。直觉是,与掩码整个矩形区域相比,分布式掩码更容易识别。为了研究,还引入了一致随机版本,其中每个掩码部分仅是一个token。虽然完全随机混合对CNN的性能有害,但作者表明transformer仍然受益于此简化版本。
为了解决CutMix生成的目标分数不准确的问题,建议使用两幅混合图像的基于内容的神经激活图来设置目标分数,这两幅神经激活图由预训练的教师网络生成。直觉是,并非所有区域都对应于前景对象。具体而言,语义信息丰富的区域对目标得分的影响比其他区域更大。通过组合两个混合图像的教师网络神经激活图来设置target分数。如图2所示,两个混合区域的目标分数计算为两个空间归一化神经激活图的总和。然后,将两个目标分数合并为混合图像的最终目标。
与之前的技术相比,TokenMix有两个主要优势:
- 当用于各种视觉transformer时,该方法可以获得一致的精度增益,还增强了变换器的遮挡鲁棒性。
- 使用基于内容的神经激活映射生成的混合图像的目标标签比利用蒸馏技术的先前方法更鲁棒。此外,还表明,该方法促进了transformer更好地定位具有注意权重的区分区域。
实验
Main Results
ImageNet Results
Transfer to Downstream Task
Main Properties
Ablative studies