Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    北大CVPR 2022 Oral新作Video K-Net:视频全景分割模型

    CV领域
    1
    1
    274
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 189****6672
      189****6672 last edited by

      北大CVPR 2022 Oral新作Video K-Net:视频全景分割模型

      论文标题:Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation

      论文地址:https://arxiv.org/pdf/2204.04656.pdf

      代码地址:https://github.com/lxtGH/Video-K-Net

      2022-04-16-10-46-20.png

      摘要

      1. 引出主题: K-Net是一种通过一组可学习的内核来统一图像分割(语义分割、实例分割)的方法。论文观察到,这些来自K-Net的可学习内核可以在视频帧中自然地关联相同的实例。

      2. 创新点:基于K-Net的基础上,该论文介绍了Video K-Net,一个简单、强大、统一的端到端视频全景分割框架。Video K-Net通过简单的基于内核的外观建模和跨时间内核交互,学会了同时分割和跟踪视频中的“things”和“stuff”(语义分割和实例分割)。

      3. 实验结果: 在Citscapes VPS和KITTI-STEP上实现了最先进的视频全景分割结果。特别是在KITTI-STEP上,与以前的方法相比,可以提高近**12%**的相对改进。还验证了它在视频语义分割中的泛化能力,在VSPW数据集上,将各种基线提高了2%。

      背景介绍

      2022-04-16-10-59-57.png

      K-Net部分可以查看上一篇论文

      论文先做了几个实验来说明工作动机。

      论文将K-Net直接用于视频分割任务。图3给出了一个Cityscapes-VSP的视觉示例。直接在两个数据集上训练K-Net,而不添加跟踪组件。在四个帧中,几个内核都表示一致性的目标,比如person和car,说明内核中已经包含了位置信息。并认为更新后的内核包含目标鉴别信息,即使不添加额外的跟踪头,也可以直接用于跟踪视频中的实例。具体分析如下:

      1. 每个输出实例掩码对应一个特定的内核。
      2. 在自适应特征更新期间,每个内核吸收位置感知特征,其中实例感知信息已经合并到每个内核中。因此,可以从之前的内核解码相同的实例。

      算法

      尽管原始K-Net具有竞争性的性能,但在几种情况下出现失效,例如图3所示的快速移动对象。

      因此,论文在K-Net上设计了三个改进,分别包括:

      1. 通过改进的对比学习损失学习内核关联嵌入
      2. 学习链接跟踪内核
      3. 学习融合内核

      整体模型架构如图4所示,给定用于训练的key图像IkeyI_{key}Ikey​,从其邻域帧中随机选择参考图像IrefI_{ref}Iref​。然后通过K-Net,最终得到两个核:KkeyK_{key}Kkey​和KrefK_{ref}Kref​

      学习内核关联嵌入Kernel Association Embeddings

      模块如图4右下角

      学习内核关联嵌入的目的是对两帧之间的实例内核嵌入进行跟踪实例对比学习。

      1. 在原来的K-Net解码器之后添加了一个额外的轻量级嵌入头,以提取每个内核的嵌入特征。嵌入头通过几个完全连接层实现。
      2. 将实例内核对应的mask prediction MiM_iMi​与GT掩码进行比较,如果对象对应的掩码的IoU高于α1\alpha_1α1​,则内核嵌入被定义为对象的正嵌入;如果IoU低于α2\alpha_2α2​,则内核嵌入被定义为负嵌入
      3. 只考虑与GT掩码匹配的内核进行训练,如果两个采样帧上两个区域与同一对象关联,则这两个内核匹配为positive,否则为negative。

      假设key帧上有 V 个匹配核作为训练样本,参考帧上有K个匹配核作为对比目标。那么跟踪损失如下:

      其中v,k+,k−是训练样本的内核嵌入、positive target和negative target。

      此外,还采用L2损失作为辅助损失。

      其中如果两个样本的匹配是正的,则 c 等于1,否则为0。

      学习链接跟踪内核Learning to Link Kernels

      模块如图4右下角黄色区域

      在训练和推理过程中将跟踪内核KkeyK_{key}Kkey​和KrefK_{ref}Kref​联系起来。这迫使内核沿时间维度执行交互作用。

      采用一个带有前馈网络(FFN)的自注意力层(MHSA:多头自注意力)将内核特征沿时间维度进行交互,进而更新内核特征。该过程如下所示:

      其中,查询、键和值分别为KkeyK_{key}Kkey​、KrefK_{ref}Kref​和KrefK_{ref}Kref​。

      这样,来自参考帧的内核通过内核之间的相似矩阵传播到关键帧。

      学习融合内核Learning to Fuse Kernels

      模块如图4中间下方

      前面的Link步骤可能只关注跟踪一致性,而忽略了分割的一致性。

      为了解决这个问题,在 K-Net 的帧之间进行内核融合。具体步骤如K-Net一致。

      实验

      Main Results

      KITTI-STEP数据集实验

      Cityscape-VPS数据集实验

      VSPW数据集实验

      Youtube-VIS-2019数据集实验

      Ablation Study

      可视化

      1 Reply Last reply Reply Quote 2
      • Referenced by  Alice_恒源云 Alice_恒源云 
      • Referenced by  Alice_恒源云 Alice_恒源云 
      • First post
        Last post