Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    NeurIPS 2022 | 用于少样本语义分割的中间原型Transformer

    CV领域
    1
    1
    41
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 189****6672
      189****6672 last edited by

      论文标题:Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation

      论文地址:[2210.06780] Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation (arxiv.org)

      代码地址:https://github.com/LIUYUANWEI98/IPMT

      img

      摘要

      1. 背景介绍: 少样本语义分割的目的是在少数注释支持图像的条件下对查询中的目标对象进行分割。大多数以前的工作都致力于从支持中挖掘更有效的类别信息,以与查询中的相应对象匹配。
      2. 现存问题: 然而, 都忽略了查询和支持图像之间的类别信息差距。如果其中的对象显示出很大的类内差异,那么将类别信息从支持强制迁移到查询是无效的。
      3. 解决方法: 为了解决这个问题,首次引入了一个中间原型,用于从支持图像中挖掘确定性类别信息,并从查询中挖掘自适应类别知识。具体来说,设计了一个中间原型挖掘transformer(IPMT),以迭代的方式学习原型。在每个IPMT层中,将支持和查询特性中的对象信息传播到原型,然后使用它来激活查询特性映射。通过迭代执行此过程,可以逐步改进中间原型和查询特性。最后,使用最终的查询特征来产生精确的分割预测。
      4. 实验结果: 在PASCAL-5i和COCO-20i数据集上的大量实验清楚地验证了IPMT的有效性,并表明它在很大程度上优于以前的最先进方法。

      img

      算法

      img

      如图2所示,每个IPMT层由两个步骤组成,即中间原型挖掘(IPM)和查询激活(QA)。

      IPM用于从支持和查询特征中挖掘中间原型,

      而QA设计用于使用学习的原型激活查询特征图。

      采用duplex segmentation loss(DSL)来监督每个IPMT层中中间原型的学习。此外,以迭代的方式执行中间原型挖掘,从而逐步提高学习的原型和分割结果的质量。

      中间原型挖掘(IPM)

      IPM有一个可学习的原型G,用于使用掩码注意力(MA)从查询和支持图像中提取自适应类别信息。原型G∈R1×C最初是一个类别和图像不可知的向量,它对之前的分割进行编码,并将在每一episode中由MA进行更新,为该episode中的目标类别编码自适应类别信息。

      掩码注意力(MA)

      通过使用支持和查询特征作为上下文,利用交叉注意力来更新G。此外,为了使G只关注目标区域并提取没有噪声的类别信息,使用支持和查询掩码来限制关注矩阵中的关注区域。具体来说,给定flattened的支持或查询特征F∈Rhw×C和相应的二进制分割掩码P∈Rh×w,首先计算注意力权重矩阵A(G,F)∈ R1×hw。然后,通过以下计算注意力掩码:

      img

      其中i表示位置索引。接下来,使用P来调节注意力权重,计算掩码注意力:

      img

      其中Vec(·)是矢量化操作。因此,背景区域上的标准化注意力权重接近于零,确保原型仅由所需类别的相关上下文更新。

      在IPM中,一方面,使用支持特征Fs和gt支持掩码Ms来更新G,提供确定性类别信息,因为Ms绝对准确。另一方面,还利用查询特征Fq和查询预测掩码Pq为G提供查询自适应类别知识,从而减少支持图像和查询图像之间的类别信息差距。之后,在学习的原型上进一步使用MLP块。整个过程可表述为:

      img

      查询激活(QA)

      在该步骤中,QA用于在学习的原型G的指导下来激活查询特征图Fq中的目标区域。G被扩展并与Fq连接来激活目标区域:

      img

      其中Factv是由1×1卷积层、ReLU层和3×3卷积层组成的简单激活网络。此外,还使用多头可变形自注意力层来进一步聚合查询特征中的上下文信息。

      Duplex Segmentation Loss

      为了便于学习G中的自适应类别信息,使用它在支持和查询图像上生成两个分割掩码,并计算两个分割损失。具体而言,使用G生成掩码嵌入,然后与图像特征图进行乘法,以获得分割掩码。掩码生成(MG)过程公式如下:

      img

      其中Wm∈RC×C是用于生成掩码嵌入的线性投影权重矩阵。 接下来,计算生成的掩码和gt(即Mq和Ms)之间的标准二进制交叉熵(BCE)损失,以优化原型学习过程:

      img

      迭代原型挖掘

      由于一个IPMT层可以更新中间原型G、查询特征图Fq和查询分割掩码Pq,因此可以迭代执行该过程,并获得越来越好的G和Fq,最终使分割结果得到有效提升。假设有L个迭代IPMT层,那么对于每个层:

      img

      其可分为以下步骤:

      img

      实验

      img

      img

      img

      img

      1 Reply Last reply Reply Quote 0
      • First post
        Last post