LoMaR:基于局部掩码重建的预训练Transformer模型
-
LoMaR:基于局部掩码重建的预训练Transformer模型
论文标题:Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction
论文地址: https://arxiv.org/pdf/2206.00790.pdf
论文代码: None
摘要
- 引入主题: 计算机视觉的自监督学习取得了巨大的进步,改进了许多下游视觉任务,如图像分类、语义分割和目标检测。其中,MAE和BEiT等生成性自监督视觉学习方法表现出了良好的性能。
- 现存问题: 然而,他们的全局掩码重建机制在计算上要求很高。
- 解决方法: 为了解决这个问题,提出了局部掩码重建(LoMaR),这是一种简单而有效的方法,在一个简单的Transformer编码器上,在7×7的小窗口内执行掩码重建,与整个图像的全局掩码重建相比,取得了效率和精度之间的权衡。
- 实验结果: 大量实验表明,LoMaR在ImageNet-1K分类中达到84.1%的top-1精度,优于MAE 0.5%。在384×384图像上对预训练后的LoMaR进行微调后,可以达到85.4%的top-1精度,超过MAE 0.6%。在MS COCO上,LoMaR在目标检测上比MAE好0.5 AP,在实例分割上比MAE好0.5 AP。LoMaR在预训练高分辨率图像上的计算效率尤其高,例如,在预训练448×448图像上,LoMaR比MAE快3.1倍,分类精度高0.2%。这种局部掩码重建学习机制可以很容易地集成到任何其他生成性自监督学习方法中。
算法
LoMaR整体上是一个Transformer结构,与MAE类似,通过从损坏图像中恢复缺失的patch来预训练大量未标记图像,但LoMaR在几个关键地方与MAE不同,具体如下。
局部与全局掩码重建:
MAE使用来自整张图像的patch来重建每个缺失的patch。然而,如图1所示,通常只有目标patch附近的patches对重建有显著贡献,这表明局部信息足以用于重建。
因此,LoMaR对小区域内的patches进行掩码和重建。实验发现,区域大小为7×7的patch可以在精度和效率之间取得最佳的平衡。另一方面,与卷积网络类似,LoMaR具有平移不变性,因为每次迭代都使用在随机空间位置采样的小窗口。
从复杂性的角度来看,由于用于操作的tokens较少,所以局部掩码和重构比全局掩码和重构MAE在计算效率上更高。假设每个图像可以划分为h×w patches。计算自注意的时间复杂度为O(h2w2)O(h^2w^2)O(h2w2)。复杂度与patches数量呈二次关系,很难用大型硬件进行扩展。然而,对于局部掩码重建,采样n个窗口,其中每个窗口包含m×m个patches;其计算复杂度为O(hw+nm4)O(hw+nm^4)O(hw+nm4),如果将m×m固定为一个恒定的窗口大小,则其时间复杂度为线性的。
模型结构:
LoMaR采用了一种简单的Transformer编码器体系结构,而不是MAE的非对称编码器-解码器。
将采样区域下所有可见和mask的patches输入编码器。
虽然将掩码patches输入编码器可能被认为比仅将掩码patches输入解码器的MAE效率更低,但发现,在早期阶段输入掩码可以增强视觉表现,并使其对较小的窗口大小更具鲁棒性。
这可能是因为编码器可以在多个编码器层与其他可见patches交互后,将掩码patches转换回其原始RGB表示,这种隐藏层中恢复的掩码patches可以隐式地对图像表示作出贡献。因此,LoMaR中保留掩码块作为编码器输入。
相对位置编码:
LoMaR在MAE中应用相对位置编码(RPE)而不是绝对位置编码。在计算自注意时,它为每个查询i和键j引入了一个可学习的向量rijr_{ij}rij。
训练细节:
- 给定一幅图像,首先将其划分为几个不重叠的patches。
- 每个patches线性投影到嵌入中。
- 在不同的空间位置随机抽取几个方形的K×K窗口。
- 然后,将每个窗口中固定百分比的patches归零。
- 然后,将所有patches(包括可见patches和掩码patches)从每个窗口按顺序提供给编码器。编码器在自注意层中应用可学习的相对位置编码。
- 用一个简单的MLP头将编码器输出的潜在表示转换回其原始特征维度,然后用归一化的真值图像来计算均方误差。
实验
通过以下步骤在ImageNet-1K数据集上进行预训练和微调,来检查LoMaR的性能。
首先,在没有标签信息的ImageNet-1K训练数据集上进行自监督预训练。
然后,在标签的监督下,在ImageNet-1K上对预训练模型进行微调。遵循与MAE相同的实验设置。
Comparison with Other Self-supervised Approaches
Integration to BEiT
Ablative Experiments