Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    上交&华为新作MRE | 将MAE作为一种数据增强

    CV领域
    1
    1
    51
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 189****6672
      189****6672 last edited by

      论文标题:Masked Autoencoders are Robust Data Augmentors

      论文地址:https://arxiv.org/pdf/2206.04846.pdf

      论文代码:https://github.com/haohang96/MRA

      img

      摘要:

      1. 引出主题: 深层神经网络能够学习强大的表征来处理复杂的视觉任务,但是存在过度拟合问题。为此,正则化技术,如图像增强是必要。
      2. 现存问题: 大多数流行的图像增强方法仅限于现成的线性变换,如缩放、翻转和色彩抖动。由于其手工制作的属性,这些增强不足以产生真正的硬增强示例。
      3. 解决方法: 论文提出了一个新的视角增强规范化的训练过程。受最近将掩蔽图像建模应用于自监督学习的成功启发,本论文采用自监督掩蔽自编码器生成输入图像的畸变视图。结果表明,利用基于模型的非线性变换,如数据增强,可以改善高级识别任务。将提出的方法称为掩模重建增强(MRA)。
      4. 实验结果: 在各种图像分类基准上的大量实验验证了该增强算法的有效性。具体来说,MRA 在监督、半监督以及少镜头分类上的表现一直得到提高。

      算法

      img

      如图1所示。采用预训练的掩蔽自动编码器作为数据增强器,为下游分类任务重建掩蔽输入图像。

      Masked Autoencoders(MAE)

      这个模块通过预训练来获取权重。

      1. 给定未标记的训练集X={x1,x2,…,xN},MAE旨在学习参数

      img

      ,其中M∈{0,1}W×H表示patch大小为16×16像素的patch序列二进制掩码。

      1. 同时,训练了一个参数为φ的解码器Dφ,以从掩盖图像的潜在嵌入中恢复原始图像:

      img

      ,其中ˆx表示重建图像。

      1. 以重建图像ˆx和原始图像x之间的均方误差

      img

      为学习目标,端到端训练编码器Eθ和解码器Dφ。

      1. 在实践中,论文发现大幅压缩自动编码器的模型大小仍然具有相当高的性能,如表9所示。因此,为了在速度和性能之间取得理想的平衡,设计了一个小型版本的MAE,并在一个NVIDIA V100 GPU上实现963 imgs/s的吞吐量。

      Attention-based Masking

      通过上一节可以获取训练好的MAE,为了实现图像的数据增强,论文提出了Attention-based Masking来对输入图像进行有选择的mask操作,随后使用上述MAE来进行像素重建,获得的输出图像就是新的增强图像。

      为了是数据增强具有对象意识,将对象位置的归纳偏差引入掩蔽策略。

      1. 采用注意力探测,以确定每个patch是否属于前景对象。将注意力较大的patch作为输入,并擦除注意力较小的patch。
      2. 给定MAE中的预训练编码器Eθ,可以计算每个输入patch的注意力图。为了适应vision transformer的输入格式,输入图像

      img

      被划分为与xp相同的非重叠patch。

      img

      最近的研究表明,在没有监督的情况下训练的视觉transformer可以自动学习与对象相关的表示。此外,类token的注意力图可以提供可靠的前景建议,如图1所示。

      1. 计算了图像patch i上注意力图:

      img

      其中,qcls是类token的查询,ki表示patch i的key嵌入。qcls和ki都是从MAE中编码器的最后一个块中提取的。

      然后,对注意力图

      img

      进行排序并得到top-k索引集Ω:

      img

      具有top-k索引集Ω, 可以生成了一个基于注意力的二进制掩码

      img

      。

      注意,只在下游任务中利用基于注意力的掩蔽策略,而在预训练自动编码器的阶段,保持对patches的随机掩蔽。

      Mask-Reconstruct Augmentation

      MRA的最终架构如图1所示。

      1. 首先通过

      img

      获取掩码图像

      img

      1. 然后,分割掩码图像为非重叠面片,并丢弃masked patches。剩余的未掩码patches被送入预训练编码器Eθ和解码器Dφ,以生成重建图像ˆx=Dφ(Eθ(M∗ x) )。
      2. 重建图像ˆx可以被视为x的增强版本,可以用于多个分类任务。注意,一旦预训练,MRA是固定的,并且在不同数据集和任务上测试时不需要进一步微调,它仍然可以生成稳健可靠的增强。

      实验

      预训练

      根据MAE的超参数在ImageNet上预训练了200个epoch。

      Fully-supervised Image Classification

      img

      Semi-supervised Classification/few-shot

      img

      Ablation Studies

      img

      img

      1 Reply Last reply Reply Quote 1
      • First post
        Last post