上交&华为新作MRE | 将MAE作为一种数据增强
-
论文标题:Masked Autoencoders are Robust Data Augmentors
论文地址:https://arxiv.org/pdf/2206.04846.pdf
论文代码:https://github.com/haohang96/MRA
摘要:
- 引出主题: 深层神经网络能够学习强大的表征来处理复杂的视觉任务,但是存在过度拟合问题。为此,正则化技术,如图像增强是必要。
- 现存问题: 大多数流行的图像增强方法仅限于现成的线性变换,如缩放、翻转和色彩抖动。由于其手工制作的属性,这些增强不足以产生真正的硬增强示例。
- 解决方法: 论文提出了一个新的视角增强规范化的训练过程。受最近将掩蔽图像建模应用于自监督学习的成功启发,本论文采用自监督掩蔽自编码器生成输入图像的畸变视图。结果表明,利用基于模型的非线性变换,如数据增强,可以改善高级识别任务。将提出的方法称为掩模重建增强(MRA)。
- 实验结果: 在各种图像分类基准上的大量实验验证了该增强算法的有效性。具体来说,MRA 在监督、半监督以及少镜头分类上的表现一直得到提高。
算法
如图1所示。采用预训练的掩蔽自动编码器作为数据增强器,为下游分类任务重建掩蔽输入图像。
Masked Autoencoders(MAE)
这个模块通过预训练来获取权重。
- 给定未标记的训练集X={x1,x2,…,xN},MAE旨在学习参数
,其中M∈{0,1}W×H表示patch大小为16×16像素的patch序列二进制掩码。
- 同时,训练了一个参数为φ的解码器Dφ,以从掩盖图像的潜在嵌入中恢复原始图像:
,其中ˆx表示重建图像。
- 以重建图像ˆx和原始图像x之间的均方误差
为学习目标,端到端训练编码器Eθ和解码器Dφ。
- 在实践中,论文发现大幅压缩自动编码器的模型大小仍然具有相当高的性能,如表9所示。因此,为了在速度和性能之间取得理想的平衡,设计了一个小型版本的MAE,并在一个NVIDIA V100 GPU上实现963 imgs/s的吞吐量。
Attention-based Masking
通过上一节可以获取训练好的MAE,为了实现图像的数据增强,论文提出了Attention-based Masking来对输入图像进行有选择的mask操作,随后使用上述MAE来进行像素重建,获得的输出图像就是新的增强图像。
为了是数据增强具有对象意识,将对象位置的归纳偏差引入掩蔽策略。
- 采用注意力探测,以确定每个patch是否属于前景对象。将注意力较大的patch作为输入,并擦除注意力较小的patch。
- 给定MAE中的预训练编码器Eθ,可以计算每个输入patch的注意力图。为了适应vision transformer的输入格式,输入图像
被划分为与xp相同的非重叠patch。
最近的研究表明,在没有监督的情况下训练的视觉transformer可以自动学习与对象相关的表示。此外,类token的注意力图可以提供可靠的前景建议,如图1所示。
- 计算了图像patch i上注意力图:
其中,qcls是类token的查询,ki表示patch i的key嵌入。qcls和ki都是从MAE中编码器的最后一个块中提取的。
然后,对注意力图
进行排序并得到top-k索引集Ω:
具有top-k索引集Ω, 可以生成了一个基于注意力的二进制掩码
。
注意,只在下游任务中利用基于注意力的掩蔽策略,而在预训练自动编码器的阶段,保持对patches的随机掩蔽。
Mask-Reconstruct Augmentation
MRA的最终架构如图1所示。
- 首先通过
获取掩码图像
- 然后,分割掩码图像为非重叠面片,并丢弃masked patches。剩余的未掩码patches被送入预训练编码器Eθ和解码器Dφ,以生成重建图像ˆx=Dφ(Eθ(M∗ x) )。
- 重建图像ˆx可以被视为x的增强版本,可以用于多个分类任务。注意,一旦预训练,MRA是固定的,并且在不同数据集和任务上测试时不需要进一步微调,它仍然可以生成稳健可靠的增强。
实验
预训练
根据MAE的超参数在ImageNet上预训练了200个epoch。
Fully-supervised Image Classification
Semi-supervised Classification/few-shot
Ablation Studies