CVPR2022 | BAM:少样本分割的新观点:Learning What Not to Segment
-
论文标题:Learning What Not to Segment: A New Perspective on Few-Shot Segmentation
论文地址:https://arxiv.org/pdf/2203.07615.pdf
代码地址:https://github.com/chunbolang/BAM
摘要
- 背景介绍: 最近,少样本分割(FSS)得到了广泛的发展。大多数以前的论文都在努力通过分类任务衍生的元学习框架来实现泛化。
- 现存问题: 但是,受过训练的模型偏向于预测可见类,从而阻碍了对新范式的认识。
- 解决方法: 本文提出了一个新鲜而直接的见解,以缓解此类问题。具体而言,将额外分支(基础学习器)应用于常规FSS模型(元学习器),以明确识别基类的目标,即不需要细分的区域。然后,将这两个学习器的粗略结果进行了自适应整合,以产生精确的分割预测。考虑到元学习器的灵敏度,进一步引入了一个调整因素,以估计输入图像对之间的场景差异,以促进模型集合预测。
- 实验结果: 在数据集Pascal-5i和COCO-20i上的显著性能提升验证了效果。此外,鉴于提出的方法的独特性质,还将其扩展到更现实但具有挑战性的环境,即广义FSS。
算法
为了减轻当前FSS方法的偏见问题,建立一个额外的网络,以明确预测查询图像中基类的区域,从而对新对象的分割进行限制。在不失去一般性的情况下,我们在1-shot设置下介绍了模型的整体体系结构(见图2)。BAM由三个主要组成部分组成,包括两个组成的学习器(即基础学习器base learner和元学习器meta learner)和一个合并模块ensemble。具有共享骨干的两个学习器被用来识别基础类别和新类别。然后,整体模块接收其粗略预测和调节因子ψ,以抑制基本类别的错误活化区域,从而进一步产生确定性分割。此外,还建议学习基于ψ的K-shot设置下不同支持图像的融合权重,旨在为查询分支提供更好的指导。
基础学习器
当前的FSS模型偏向于所见类,这阻碍了对新颖类别的学习。基于这一观察结果,建议引入一个额外的分支,即基础学习器,以预测查询信息中基类的区域。具体而言,给定查询图像xq∈R3×H×W,首先应用编码器网络E和卷积块来提取其中间特征映射fbq:
然后,解码器网络Db逐渐扩大了中间特征映射fbq的空间尺度,并最终得出预测结果,可以定义为
沿通道维度进行softmax(·)操作以生成概率映射Pb。Nb代表基础类别的数量。
与在few-shot广泛采用的episodic learning范式不同,遵循标准的监督学习范式来训练基础学习器。交叉熵CE损失被利用评估预测Pb和真值mbq之间的差距,可以表示为:
元学习器
给定一个支持集S={,xs,ms}和一个查询图像xq,元学习器的目标是在S的指导下分割xq中与注释掩码ms具有相同类别的对象。首先连接从block2和block3派生的特征。然后,应用1×1卷积来减少通道维数并生成中间特征图:
此外,通过masked average pooling(MAP)来计算原型。从而提供至关重要的类别相关线索:
之后,在vs的指导下激活fmq中的目标区域,最终的预测结果是通过解码器网络生成的:
Fguidence是FSS的一个重要模块,它将注释信息从支持分支传递到查询分支,以提供特定的分割线索。一般使用“expand & concatenate”操作。同样,计算Pm和真值mq之间的BCE损失,以更新元学习器的所有参数
Ensemble
考虑到元学习器通常对支持图像的质量敏感,进一步建议利用查询-支持图像对之间场景差异的评估结果来调整元学习器得出的粗略预测。
具体来说,首先整合由基础学习器生成的前景概率图,以获得相对于few-shot任务的背景区域预测
然后,利用低级特征,fslows,flowq∈RC1×H1×W1从固定骨干网络中提取,分别计算支持图像和查询图像的Gram矩阵(见图3)。请注意,这两个输入图像的相关操作是相似的,支持图像的操作可以总结为
利用计算出的Gram矩阵,根据其差值评估Frobenius范数,以获得指导调整过程的总体指标ψ
之后,在调整因子ψ的指导下集成了两个学习器的粗略结果,从而产生了最终的分割预测Pf:
最后,可以通过以下方式评估元训练阶段的总体损失
实验
Comparison with State-of-the-Arts
消融实验