Vision Transformers是很好的掩码自动标注器
-
论文标题:Vision Transformers Are Good Mask Auto-Labelers
论文地址:https://arxiv.org/pdf/2301.03992.pdf
论文代码:https://github.com/NVlabs/mask-auto-labeler
摘要
作者提出了Mask Auto Labeler(MAL),这是一种高质量的基于Transformer的掩码自动标记框架,用于仅使用框注释的场景分割。MAL将框裁剪图像作为输入,并有条件地生成其掩码伪标记。
作者表明,视觉Transformers是一种很好的掩码自动标记器。
使用MAL生成的掩码训练的实例分割模型几乎可以匹配其完全监督的对应模型的性能,保持高达97.4%的完全监督模型的性能。最佳模型在COCO现场分割上实现了44.1%的mAP,以显著的优势超过了最先进的box监督方法。定性结果表明,在某些情况下,MAL制作的mask甚至优于人类注释。
算法
不同于以前的box监督实例分割框架,它同时学习检测和实例分割。利用了如图2所示的两阶段框架,这允许在阶段1中有一个网络专注于生成掩码伪标签,而在阶段2中有另一个网络侧重于学习姿态分割。作者提出的自动标记框架在第1阶段用于生成高质量的掩码伪标签。
由于第2阶段遵循了之前的标准模型,这里不需要重新介绍,因此将重点介绍第1阶段(MAL)。
RoI input generation
大多数框监督的实例分割方法都是使用整个图像进行训练的。然而,发现使用RoI图像在框监督的实例分割中可能有更多的好处。
使用RoI图像作为输入有两个优点。首先,使用RoI图像作为输入自然有利于处理小对象,因为无论对象有多小,RoI图像都会被放大以避免低分辨率引起的问题。其次,拥有RoI输入可以让MAL专注于学习分割,避免分心学习其他复杂任务,例如物体检测。
RoI 采样策略。策略应确保包括正像素和负像素。作者提出了两种简单的抽样策略
- 第一种策略是使用边界框裁剪图像作为正输入。使用随机生成的仅包含背景像素的框来裁剪图像作为负输入。MAL无法使用裁剪策略生成良好的掩码伪标签。观察到,网络倾向于学习平凡的解决方案(所有像素都被预测为前景或背景)。
- 第二种方法是随机展开边界框并包括背景像素,其中从展开的行和列中选择负bags。在图3中看到了如何定义阳/阴bags。这种设计对于MAL的工作至关重要,因为它防止MAL学习琐碎的解决方案。
box扩展细节。给定未修剪图像Iu∈RC×Hu×Wu和边界框b=(x0,y0,x1,y1),表示左上角和右下角的x,y坐标。
为了获得背景像素,将边界框b扩展为b′=(xc+βx(x0−xc),yc+β′x(y0−yc),xc+βy(x1−xc),yc+β′y(y1−yc)),其中xc=(x0+x1)/2,yc=(y0+y1)/2。为了生成βx,β′x,βy,β′y的随机值,在x和y方向上随机生成θx,θy∈[0,θ],其中θ是box膨胀率的上限。
接下来,随机生成βx∈[0,θx]和βy∈[0,θy]。最后,将β′x指定为θx-βx,将β′y指定为θy-βy。最后,使用b′裁剪图像并获得修剪图像It。最后,将修剪后的图像It调整为C×Hc×Wc的大小,作为输入图像Ic。
MAL architecture
MAL可以分为两个对称网络:任务网络和教师网络。任务网络由表示为E的图像编码器和表示为D的掩码解编码器组成,如图3所示。教师网络的架构与任务网络相同。将任务网络和教师网络的分割输出分别表示为m,mt∈{0,1}N
图像编码器。使用标准ViTs作为图像编码器,并丢弃标准ViTs的分类头。
掩码解码器。对于掩码解码器D,使用由YOLACT启发的简单的基于注意力的网络,该网络包括实例感知头部K和像素感知头部V,其中D(E(I))=K(E(I))⋅V(E(I)),“·”表示内积运算符。
对于实例感知头部K,使用一个最大池化层,然后是一个完全连接层。K的输入通道维数与E的输出通道维数相等。K的输出通道尺寸为256。
对于逐像素头V,使用四个连续卷积层。每个后面都有一个ReLU层。在第二和第三卷积层之间,插入了一个双线性插值层,以将特征分辨率提高2。输入通道维度相当于E的输出通道维度。对隐藏通道和输出通道使用256个维度。
Losses
使用多实例学习损失Lmil和条件随机场损失Lcrf作为box监督损失
多实例学习损失。多实例分割的动机是利用紧边界框注释的先验知识。
学生网络生成输出m后,在输出掩码m上应用多实例学习(MIL)损失。在图3中演示了该过程。
将,mi,j表示为图像Ic中位置i,j处的掩码分数。将每个像素定义为MIL损失的一个实例。受BBTP的启发,将每行或每列像素视为一个bag。根据一个bag是否经过gt box来判断它是正样本的还是负样本。将bag定义为B,每个bag Bi包含一行或一列像素。此外,为每个bag g定义标签,每个标签gi对应于一个bag Bi。
因此,使用最大池化作为e reduction函数和dice损失
条件随机场损失。CRF损失的目标是通过能量最小化施加平滑先验来细化掩码预测。然后,利用这个精炼的掩码作为伪标签,以在线教师的方式对掩码预处理进行自训练。使用平均掩模预测()ma=1/2(m+mt)作为掩模预测,以便更稳定地训练。
实验
COCO数据集。包含80个语义类别。
LVIS数据集。包含1200+个类别和164K个图像。
Instance segmentation results
Image encoder variation
Mask decoder variation