POLITE TEACHER:基于互学习和伪标签阈值的半监督实例分割
-
论文标题:POLITE TEACHER: SEMI-SUPERVISED INSTANCE SEGMENTATION WITH MUTUAL LEARNING AND PSEUDOLABEL THRESHOLDING
论文地址:https://arxiv.org/abs/2211.03850
代码地址:暂无
摘要
Polite Teacher是一种简单而有效的半监督实例分割方法。所提出的架构依赖于师生互学框架。为了滤除噪声伪标签,对边界框使用置信阈值,对掩码使用掩码评分。
该方法已通过单级无锚检测器CenterMask进行了测试。在COCO 2017 val数据集上测试,在不同监督制度下该架构显著优于基线。这是第一个解决半监督实例分割问题的无锚检测器。
算法
问题表述:
该论文研究的是半监督实例分割问题。实例分割是一项结合了目标检测和语义分割的计算机视觉任务。半监督意味着只标记训练阶段的部分数据。更正式地说,考虑由一组Nsup个标注数据集(Dsup ={xi,yi}i=1Nsup )和Nunsup个未标记数据集(Dunsup ={xi,yi}i=1Nunsup )组成的训练数据集D。在这里,xi和yi分别代表图像及其标签(实例类别及其边界框和掩码)。通常,Nunsup>>Nsup。在这项工作中,假设Dsup和Dunsup来自相同的分布。
模型结构
Polite Teacher的架构取决于几个组件。第一个是检测器,由于师生模式,它被使用了两次。使用CenterMask(Lee&Park,2020)。这是一个单级无锚检测器,具有相对简单的架构,因此很容易调整。然后在师生范式中构建两个这样的网络,以处理标注和未标注的数据。最后,进行双重伪标签阈值处理以去除噪声。第一重使用边界框不确定性,第二重方法拒绝IoU分数估计较低的掩码。
检测器Detector
要正确利用CenterMask,应首先讨论FCOS。Tian等人(2020)介绍了全卷积单级对象检测器(简称FCOS),一种无锚对象检测器。一般来说,由于缺少proposal生成阶段,单级检测器需要调整的超参数较少,因此更容易训练。无锚意味着取消预定义的锚,这减少了与计算IoU分数相关的计算负担。FCOS帧检测是一项逐像素预测任务,类似于语义分割。有三个损失成分需要优化:分类、回归和中心度。
虽然分类工作类似于其他检测器,但回归目标却截然不同。四个回归值是l(从边界框的中心到其左边界的距离)、t(顶部)、R(右侧)、b(底部),而不是预测边界框的角点(如Faster R-CNN)。 最后,中心度表示给定边界框的中心。地面真实中心(l∗,t∗,r∗,b∗)定义如下:
Lee&Park(2020)引入了CenterMask,它扩展了FCOS以执行实例分割任务。这与Mask R-CNN(He etal.,2017)扩展Faster R-CNN的方式类似。然而,存在一些差异。例如,由于所使用的特征金字塔(FPN)的不同级别,RoI分配函数被重新定义。CenterMask使用的是空间注意力引导掩码(缩写为SAG mask),而不是mask R-CNN的掩码头。对于x,这里表示从RoI对齐中提取的特征,注意力引导特征图计算如下:
其中σ表示sigmoid函数,Pmax和Pavg是最大和平均池化的结果。
Teacher-Student Learning
采用两步训练。
在第一步中,仅使用标记数据(Dsup)训练模型,这使该部分成为标准的监督实例分割。没有使用固定数量的批次来完成这一步骤,而是只要它在mask AP方面收敛,并采用最佳模型θ来确保最好结果。当然,这一步骤预计需要更长的时间,因为监督的示例数量更多。
第二步,使用伪标签进行师生互学。使用并复制第一步中的最佳模型来作为学生和教师模型(θs← θ、 θt← θ)。
教师和学生模型接收相同的输入数据,但它们的数据增强方式不同。教师接收适度增强的图像(弱增强–使用随机翻转),而学生则使用明显扰动的图像(强增强–加上颜色抖动、随机灰度、高斯模糊和随机patch mask)。在训练过程中,教师模型的预测作为学生的伪标签(带有类和掩码的边界框)。使用指数移动平均值更新教师。图1说明了过程的非监督部分(第二步)。
伪标签阈值
由于教师被用来在半监督体制中生成伪标签,它们可能会很嘈杂——尤其是在无监督数据占很大比例的情况下。因此,Polite Teacher使用两步伪标签阈值:一步涉及边界框,而第二步细化掩码。
与STAC Sohn等人(2020)和无偏教师(Liu等人,2021)类似,引入了边界框置信阈值-τcls。分类分数小于τcls的边界框将被丢弃。分类的sigmoid输出在这里被视为置信度。
受Huang等人(2019)工作的启发,还使用了mask评分机制。它对生成的掩码的IoU值进行回归,并由于更精确的掩码的优先级而提高了实例分割性能。虽然没有直接设计用于半监督学习任务,但该模块的输出可以以直接方式过滤噪声伪掩码。也就是说,在无监督学习阶段仅使用满足y^IoU>τIoU的掩码。其他的被认为是不确定的,并且设置为零梯度。
优化
一个batch中有监督的{(xi,yi)}i=1Bsup 和无监督的{(xj,y^j)}j=1Bunsup 的整体批次损失L计算如下:
无监督部分按λ缩放。监督损失的计算如下:
关于伪标签损失,使用以下定义:
学生使用标准的随机梯度下降进行训练
实验
消融实验