CVPR2022 CCAM | 用于目标定位和语义分割的弱监督对比学习模型
-
论文标题: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation
论文地址:https://arxiv.org/pdf/2203.13505.pdf
代码地址: https://github.com/CVI-SZU/CCAM
摘要
- 现存问题: 虽然由图像分类网络生成的类激活图(CAM)已广泛用于弱监督目标定位(WSOL)和语义分割(WSSS),但此类分类器通常侧重于区分对象区域。
- 作者提出了一种仅使用未标记图像数据的类无关激活图(C2AM)生成的对比学习,而不涉及图像级监控。其核心思想来自以下观察:i)前景物体的语义信息通常与其背景不同;ii)具有相似外观的前景对象或具有相似颜色/纹理的背景在特征空间中具有相似的表示。基于上述关系形成正和负对,并使用一种新的对比损失迫使网络使用类不可知激活图来解除前景和背景的纠缠。由于网络被引导来区分图像的前景和背景,通过学习的类无关激活映射生成更完整的对象区域。
- 成功地从(C2AM)类不可知对象边界框中提取对象定位和背景线索,以细化分类网络生成的用于语义分割的CAM。在CUB-200-2011、ImageNet-1K和PASCAL VOC2012数据集上进行的大量实验表明,WSOL和WSSS都可以从C2AM中受益。
算法
模型结构
C2AM的整体网络架构如图3所示。给定一批n个图像X1:n={Xi}i=1n,编码器h(·)将X映射到高级特征映射Z1:n={Zi}i=1n,其中Zi∈RC×H×W。流行的网络,例如ResNet或VGG被用作编码器h(·)。可以采用ImageNet-1K上的监督或非监督预训练,例如moco和detco,作为h(·)的初始化。
基于提取的特征映射Z,解码器使用激活头φ(·)来产生类不可知激活映射P1:n={Pi}i=1n,其中Pi∈R1×H×W。具体而言,φ(·)是一个3×3卷积,带有一个批量归一化层。假设Pi激活前景区域,则第i个样本的背景激活图可计算为(1−Pi)。前景和背景激活图最终可以将特征图Z1:n分解为前景和背景特征表示,即分别为V1:nf和V1:nb。对于第i个样本,V1:nf和V1:nb可以表示为:
前景-背景对比
考虑到在训练过程中没有标签信息,基于跨图像前景-背景对比的思想,提出了C2AM,该方法仅利用前景和背景表示之间的语义信息来跟踪前景对象区域。如上所述,给定图像,其前景和背景表示包含不同的语义信息,因此在特征空间中应具有较大的差异。这种观察也适用于跨图像情况。它们的前景和背景表示之间的距离也应该很大。
基于这些分析,提出对比学习来区分前景-背景表征。给定 n 个样本X1:n,解码器将它们分为 n 个前景和 n 个背景表示,即 V1:nf和V1:nb。前景-背景表示对,即,(V1:nf,V1:nb) ,被视为负对。负对比损失设计如下:
其中si,jneg是余弦相似性。LNEG考虑图像内(i=j)和跨图像(i !=j)的对比比较。
具有排序加权的前景-前景和背景-背景对比
来自两个不同图像的前景和前景或背景和背景表示形成正对。然而,只有外观相似的前景表示以及颜色/纹理相似的背景表示在特征空间中距离较小,应将其拉在一起。具有较大差异的正对将影响学习过程,因为这两个前景对象或背景中的相似语义较少。为了解决这个问题,设计了一种基于特征相似性的排序权重,以自动减少这些不相似正对的影响。首先计算每个候选正对之间的余弦相似度:
si,jf潜在地指示来自Xi的前景对象是否与来自Xj的前景对象具有相似的语义。给定来自前景-前景表示的相似集sf={s1,2f,⋯,si,jf,⋯}(i≠j)和来自背景-背景表示的相似性集sb={s1,2b,⋯,si,jb,⋯}(i≠j),然后,根据每个正对的排名计算权重,如下所示:
其中α是控制指数函数平滑度的超参数。rank()表示排名。
排序权重wi,j的范围从0到1。大的权重分配给具有相似语义(例如,相似的外观、颜色或纹理)的正对,小的权重分配到具有较小相似性的正对。它可以在一定程度上减少这些不相似对的影响,以便更好地进行对比学习。最终的正对比损失公式为:
总体对比损耗L表示为LPOS和LNEG之和:
当对比损失L用于拉近和推开正负对中的表示时,类不可知激活图逐渐分离图像中前景对象和背景的区域。
如何确定前景区域。由于将相同的对比损失应用于前景-前景和背景-背景正对,因此不能保证前景或背景区域在Pi中被激活。为了解决这个问题,设置了一个阈值来对类无关激活映射进行二值化,并检测最大轮廓来确定对象区域。
弱监督目标定位
遵循PSOL的方法,将C2AM转化为目标定位WSOL。具体来说,WSOL分为两个任务:类无关的对象定位和对象分类。PSOL使用DDT在训练集上生成类无关对象边界框。给定同一类别的一组图像,DDT获得这些类别一致区域,以提取类无关对象边界框。相比之下,C2AM直接从整个数据集中学习类无关的激活映射,而无需任何人工注释。设置了一个阈值,对类无关激活映射进行二值化,然后提取类无关对象边界框作为伪标签。使用这些伪标签训练定位模型,用于对象边界框预测。
弱监督语义分割
首先使用基于CAM的方法为每个图像生成初始CAM,然后应用C2AM对其进行细化。具体而言,使用背景激活图(1−P) 以进一步训练模型来预测图像中的背景区域,即背景线索。如图5所示,将预测的背景线索与初始CAM连接起来,并沿通道维度执行argmax过程以优化初始CAM。这有助于减少背景的错误激活,并在初始CAM中激活更多前景区域。
实验
CAM可视化
WSOL结果
WSSS结果
Sensitivity Analysis