ECCV 2022 | 哈工大新作Dense Teacher:用于半监督目标检测的密集伪标签
-
论文标题: Dense Teacher: Dense Pseudo-Labels for Semi-supervised Object Detection
论文地址:https://arxiv.org/pdf/2207.02541.pdf
论文代码: https://github.com/Megvii-BaseDetection/DenseTeacher
摘要
- 现存问题: 迄今为止,最强大的半监督对象检测器(SS-OD)基于伪boxes,需要一系列具有微调超参数的后处理。
- 解决方法: 作者提出用密集预测代替稀疏伪框,作为一种统一而直接的伪标签形式。与伪框相比,密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签携带的噪声。
- 实验结果: 在COCO和VOC方面,与基于伪boxes的方法相比,稠密教师在各种设置下表现出优异的性能。
算法
Pseudo-Labeling Framework
密集型教师遵循现有的伪标记框架,如图1所示。在每次迭代中
- 标记和未标记的图像被随机采样以形成数据batch
- 教师模型参数是学生模型的指数移动平均值(EMA),采用增强的未标记图像生成伪标签
- 然后,学生模型将标记数据用于普通训练,并计算有监督损失Ls,而未标记数据与伪标记一起用于产生无监督损失Lu
- 对两个损失进行加权和学习以更新学生模型的参数。学生模型以EMA方式更新教师模型
最后,总损失函数定义为:
其中wu是无监督损失权重。传统上,无监督损失Lu是用伪boxes计算的。然而,在下一节中,使用已处理的框作为伪标签可能效率低下,而且是次优的。
Disadvantages of Pseudo-box Labels
在这一部分中,研究了基于伪boxes的SS-OD算法在COCO和CrowdHuman2上的行为,因为NMS阈值的影响可以在crowd情况下更清楚地显示出来。在这些实验中,采用Unbiased Teacher[18]作为FCOS的代表算法。
Dilemma in Thresholding: 在SS-OD算法中,教师模型的输出预计将在无监督图像中起到gt标签的作用。为此,阈值化是筛选低得分框的关键操作,以便提高伪框标签的质量。然而,初步实验表明,该操作引入的阈值σt可能会严重影响整个训练过程。
在图2(a)中,展示了不同σt下Unbiased Teacher的训练结果。结果表明,随着σt的变化,两个数据集的检测性能都有显著波动。此外,当σt设置为高值(例如0.7和0.9)时,训练过程甚至无法收敛。如图2(c)和(d)所示,这种现象可能是由教师预测中的大量假阴性引起的。在这种情况下,阈值化将消除许多高质量预测,并误导学生模型的学习过程。相反,当将σt设置为低值(如0.3)时,由于误报数量的增加,性能表现出明显下降(见图2(c)和(d))。因此,无法找到一个完美的阈值来确保生成的伪boxes的质量。
**Dilemma in Non-Maximum Suppression (NMS):**大多数目标检测算法在检测器的原始输出上采用NMS,以消除冗余预测。它对于现有SS-OD框架中的教师模型也是不可或缺的,没有它,生成的伪标签将是一团乱。NMS引入阈值σnms来控制抑制程度。
根据实验,发现σnms对SS-OD算法也有不可忽略的影响。图2(b)显示了σnms与Unbiased Teacher性能之间的关系。从这个图中,可以看出1)不同的σnms可能导致检测性能的波动(特别是在CrowdHuman上)。2)不同数据集的最佳σnms值不同(即COCO上为0.7,CrowdHuman上为0 0.8),这将给开发人员带来额外的工作量,以调整其自定义数据集的最优σnms。此外,先前的工作表明,在Crowd场景中,如在CrowdHuman数据集中,不存在一个完美的σnms,可以保持所有的真阳性预测,同时抑制所有的假阳性。因此,随着NMS的采用,伪boxes标签的不可靠性进一步加剧。
Inconsistent Label Assignment: 如图1所示,现有的基于伪标签的算法通过标签分配将稀疏伪框转换为密集形式,以形成最终监督。在基于特定预定义规则的标签分配期间,锚框(或点)将被标记为正或负。虽然这一过程在标准对象检测任务中是自然的,但作者认为这对SS-OD任务是有害的。原因很简单:伪boxes可能存在不准确的定位问题,使标签分配结果与潜在的地面真值标签不一致。在图3中,可以发现,尽管预测框与IoU阈值0.5下的实际框匹配,但由于不准确的伪框,出现了严重不一致的分配结果。这种与实际情况的不一致可能会降低性能。
由于上述三个问题,作者挑战了使用伪boxes作为无监督学习的中间件的传统,并提出了一种新的伪标签形式,该形式密集且无后处理。
Dense Pseudo-Label
为了解决上述问题,提出了密集伪标记(DPL),它包含更丰富和无失真的监控信号。具体而言,采用训练模型预测的post-sigmoid Logit作为所需的密集伪标记,如图1中的绿框所示。绕过这些冗长的后处理方法后,自然会发现DPL从教师那里保留了比其伪boxes更详细的信息。
由于DPL以连续值(0和1之间的值)表示信息,标准Focal Loss只能处理离散二进制值(0或1),因此采用Quality Focal Loss在密集伪标签和学生的预测结果之间进行学习。让
表示为DPL(即教师的预测),并
作为学生对第i位anchor的预测,希望对同一anchor的预测和目标相似。因此,可以将未标记图像的第i个锚上的分类损失写为:
虽然DPL包含丰富的信息,但由于没有阈值操作,它也保留了许多低得分预测。由于这些低得分预测通常涉及背景区域,直观地说,其中包含的知识信息较少。在第4.4节中,通过实验证明,在这些区域学习模仿教师的反应会损害SS-OD算法的性能。因此,建议根据教师的特征丰富度得分(FRS[35]),将整个输入图像划分为学习区域和抑制区域(例如,正负分割中的负区域)。借助该丰富度得分,选择得分最高的k%像素作为学习区域,其他区域将被抑制为0。因此,DPL扩展为:
实验
Main Results
Comparison with State-of-the-arts
Ablation and Key Parameters