ECCV2022 华科Ð提出OSFormer | 用于伪装分割的单阶段模型
-
论文标题:OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
论文地址:https://arxiv.org/pdf/2207.02255.pdf
论文代码:https://github.com/PJLallen/OSFormer
摘要
- 算法: 提出了OSFormer,这是第一个用于伪装实例分割(CIS)的单阶段transformer框架。OSFormer基于两个关键设计。首先,通过引入位置引导查询和混合卷积前馈网络,设计了一个location-sensing transformer(LST)来获取位置标签和实例感知参数。其次,开发了一种从粗到精的融合(CFF),以合并来自LST编码器和CNN backbone的各种上下文信息。耦合这两个组件使OSFormer能够有效地混合局部特征和长期上下文依赖,以预测伪装实例。
- 实验结果: 与两阶段框架相比,OSFormer在不需要大量训练数据的情况下达到了41%的AP,并实现了良好的收敛效率。
算法
OSFormer由四个基本组件组成:
- 用于提取对象特征表示的CNN主干
- 利用全局特征和位置引导查询生成实例感知嵌入的location- sensing transformer (LST)
- 粗到细融合(CFF)用于集成从低到高级别多尺度特征并产生高分辨率掩码特征
- 用于预测最终实例掩码的动态伪装实例归一化(DCIN)。
CNN Backbone
给定输入图像I∈RH×W×3,使用来自CNN主干的多尺度特征Cii=25(即ResNet-50)。
为了降低计算成本,直接将最后三个特征映射(C3、C4、C5)展平成序列Xm(通道数为256)来作为LST编码器的输入。
对于C2特征,将其作为低层特征输入到CFF模块中,以捕获更多伪装的实例线索。
Location-Sensing Transformer
虽然transformer可以通过自注意力层更好地提取全局信息,但它需要大规模训练样本和高计算量。由于CIS的数据量有限,所以目标是设计一种高效的体系结构,能够更快地收敛并实现有竞争力的性能。在图3中,展示了Location-Sensing Transformer(LST)。
LST编码器:
与DETR不同,其只向transformer编码器输入一个单尺度低分辨率特征,而LST编码器接收多尺度特征Xm以获得丰富的信息。使用可变形自注意力层来更好地捕捉局部信息并增强相邻tokens之间的相关性。
并将卷积运算引入前馈网络,称为混合卷积前馈网络(BC-FFN)。首先,根据Ci的形状将特征向量恢复到空间维度。然后,执行核大小为3×3的卷积层来学习感应偏差。最后,添加了一个组归一化(GN)和一个GELU激活来形成前馈网络。在3×3卷积层之后,将特征展平为序列。
具体来说,给定输入特征Xb,BC-FFN的过程可以表示为:
总的来说,LST编码器层描述如下:
Location-Guided Queries:
对象查询在transformer架构中起着关键作用,它被用作解码器的初始输入,并通过解码器层实现输出嵌入。然而,vanilla DETR收敛缓慢的原因之一是对象查询是零初始化的。为此,提出了位置引导查询,该查询利用LST编码器3个多尺度特征映射Ti,i=3,4,5的优势。
- 首先将恢复的特征映射T3-T5调整为Si×Si×D的形状,i=1,2,3。
- 然后,将调整后的特征划分为Si x Si特征网格,并将其展平,以生成位置引导查询Q∈RL×D,L=∑i=13Si2。在这种情况下,提出的位置引导查询可以利用不同位置的可学习局部特征来优化初始化,并有效地聚合伪装区域中的特征。该查询生成策略提高了transformer解码器中查询迭代的效率,并加速了训练收敛。
LST Decoder:
- 空间位置编码也被添加到位置引导查询QL和编码器内存Xe中。
- 然后,通过可变形交叉注意力层对其进行融合。与一般transformer解码器不同,直接使用交叉注意力,而不使用自注意力,因为提出的查询已经包含可学习的全局特征。BC-FFN也在可变形注意操作后部署,类似于LST编码器。LST解码器的过程总结如下:
Coarse-to-Fine Fusion
作为一种基于自底向上transformer的模型,OSFormer利用LST编码器输出的多级全局特征,以产生共享掩码特征表示。
为了合并不同的上下文信息,还融合了来自CNN主干的低级特征C2作为补充,以生成统一的高分辨率特征映射F∈RH/4×W/4×D。
粗到精融合(CFF)的详细结构如图4所示。将多级特征C2、T3、T4和T5作为级联融合的输入。从输入比例为1/32的T5开始,通过3×3卷积、GN和2×双线性上采样,并添加更高分辨率特征(T4为1/16比例)。将C2与1/4比例融合后,特征继续进行1×1卷积、GN和RELU操作,以生成掩码特征F。
考虑到伪装的边缘特征更难捕捉,设计了嵌入CFF的反向边缘注意(REA)模块,以在迭代过程中监控边缘特征。
REA对边缘特征而不是预测的二进制掩码进行操作。此外,用于监督的边缘标签是通过erosion侵蚀实例掩码标签获得的,无需任何手动标记。
受卷积块注意Convolutional Block Attention的启发,输入特征由平均池(AvgPool)和最大池(MaxPool)操作。然后,将它们连接并进行7×7卷积和sigmoid操作。然后,反转注意力权重,并通过元素乘法将其应用于融合特征Ff。最后,使用3×3卷积来预测边缘特征。假设输入特征为Ti,每个REA模块的整个过程可以公式化如下:
Dynamic Camouflaged Instance Normalization
将动态伪装实例归一化(DCIN)引入最终掩码预测。当DCIN从LST解码器中接收到输出嵌入Xd∈RS2×D时,使用全连接层(FC)来获得位置标签。并行地,使用多层感知器(MLP)获得大小为D(即256)的实例感知参数。
在训练阶段,根据GT分配正位置和负位置。应用正位置的实例感知参数来生成分割掩码。
在测试阶段,利用位置标签的置信值来过滤(参见图5中的Supress)无效参数(例如阈值>0.5)。随后,对滤波的位置感知参数操作两个线性层以获得仿射权重ω∈RN×D和偏差β∈RN×1。最后,它们与共享掩码特征F一起使用F∈RH/4×W/4×D来预测伪装实例,可以描述为
实验
Ablation Studies
Comparisons with Cutting-Edge Methods