Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    前沿分享

    CV领域
    1
    1
    21
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 189****6672
      189****6672 last edited by

      转载:我爱计算机视觉(知乎)
      #视觉语言#

      Class-Aware Visual Prompt Tuning for Vision-Language Pre-Trained Model

      西北工业大学&西安电子科技大学

      随着像 CLIP 这样的大型预训练视觉语言模型的出现,可迁移的表征可以通过提示调谐来适应广泛的下游任务。提示调整试图从预先训练的视觉语言模型的图像和文本编码器中存储的一般知识中探寻对下游任务有益的信息。最近提出的一种名为 Context Optimization(CoOp)的方法从语言方面引入一组可学习的向量作为文本提示,而单独调整文本提示不能影响图像编码器的计算视觉特征,从而导致次优。

      本篇文章提出一种双模态的提示调谐范式,通过同时学习文本和图像编码器的文本提示和视觉提示。此外,为了使视觉提示更集中于目标视觉概念,作者提出Class-Aware Visual Prompt Tuning(CAVPT),它是通过对模板提示的语言描述和视觉类标记嵌入之间进行交叉关注而动态生成的。

      所提出方法为调整大型预训练的视觉语言模型提供了一个新的范式,在8个数据集上的大量实验结果证明了所提出方法的有效性。

      论文:https://arxiv.org/abs/2208.08340

      将开源

      img

      #三维人体运动捕捉#

      MoCapDeform: Monocular 3D Human Motion Capture in Deformable Scenes

      萨尔大学&MPI for Informatics

      从单目 RGB 图像中捕捉人类的三维运动,并尊重主体与复杂和可能变形的环境的相互作用,是一个非常具有挑战性的、不理想的和未被充分探索的问题。现有的方法只是弱化了这个问题,并没有对人类与场景表面互动时经常发生的表面变形进行建模。

      相比之下,本文提出 MoCapDeform,即一个用于单目 3D 人类运动捕捉的新框架,它是第一个明确地对 3D 场景的非刚性变形进行建模,以改进3D人类姿势估计和可变形环境重建。MoCapDeform 接受一个单目 RGB 视频和一个在摄像机空间中对齐的三维场景网格。它首先在输入的单目视频中定位一个主体,并使用一种新的基于射线投影的策略确定密集的接触标签。接下来,利用人与环境的互动约束,共同优化全局三维人体姿势和非刚性表面变形。

      MoCapDeform在几个数据集上取得了比其他竞争方法更高的精确度,包括我们新录制的具有变形背景场景的数据集。

      将开源:https://github.com/Malefikus/MoCapDeform

      论文:https://arxiv.org/abs/2208.08439

      img

      #Sports Understanding##体育视频理解#

      DeepSportradar-v1: Computer Vision Dataset for Sports Understanding with High Quality Annotations

      Sportradar AG

      随着近年来深度学习应用于计算机视觉的发展,体育视频理解得到了广泛的关注,为体育消费者和联盟提供了更丰富的信息。本文介绍了 DeepSportradar-v1,是一套用于自动体育理解的计算机视觉任务、数据集和基准。这个框架的主要目的是缩小学术研究和真实世界环境之间的差距。

      为此,这些数据集提供了高分辨率的原始图像、相机参数和高质量的标注。DeepSportradar 目前支持四个与篮球有关的挑战性任务:球的三维定位、相机校准、球员实例分割和球员重识别。对于这四项任务中的每一项,都提供了关于数据集、目标、性能指标和建议的基线方法的详细描述。

      为了鼓励对体育理解的高级方法的进一步研究,作为ACM多媒体2022会议的MMSports研讨会的一部分,组织了一次竞赛,参与者必须开发最先进的方法来解决上述任务。另外四个数据集、开发工具包和基线是公开的。

      将开源:https://github.com/DeepSportRadar

      论文:https://arxiv.org/abs/2208.08190

      img

      #视频超分辨率#

      Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors

      International Institute of Information Technology&巴斯大学

      本次工作探讨了一个有趣的问题,即从一个 8×8 像素的视频序列中可以得到什么。通过证明用正确的音频和图像先验集来处理这个 8×8 的视频时,可以得到一个全长的、256×256的视频。作者用新的视听上采样网络实现了对极低分辨率输入的 32 倍缩放。音频先验有助于恢复基本的面部细节和精确的唇形,单一的高分辨率目标身份图像先验可以提供丰富的外观细节。

      所提出方法是一个端到端的多阶段框架。第一阶段产生一个粗略的中间输出视频,然后可用于对单一目标身份图像进行动画处理,并产生真实、准确和高质量的输出。该方法很简单,与以前的超分辨率方法相比,表现得非常好(FID得分提高了8倍)。

      作者还将该模型扩展到 talking-face 视频压缩,并表明在比特/像素方面比以前的最先进水平获得了 3.5 倍的改进。通过广泛的消融实验(在论文和补充材料中)对该网络的结果进行了彻底的分析。

      将开源:https://github.com/Sindhu-Hegde/video-super-resolver

      论文:https://arxiv.org/abs/2208.08118

      img

      #道路检测#

      Road detection via a dual-task network based on cross-layer graph fusion modules

      基于遥感图像的道路检测对智能交通管理具有重要意义。主流道路检测方法的性能主要由其提取的特征决定,其丰富性和鲁棒性可以通过融合不同类型的特征和跨层连接来加强。然而,现有主流模型框架中的特征通过单任务训练往往在同一层中是相似的,传统的跨层融合方式过于简单,无法获得高效的效果,因此除了串联和加法之外,更复杂的融合方式值得探索。

      针对上述缺陷,作者提出道路检测的双任务网络(DTnet)和跨层图融合模块(CGM):DTnet 由两个平行的分支组成,分别用于道路面积和边缘检测,同时通过设计的特征桥模块(FBM)在两个分支之间融合特征,增强了特征的多样性。CGM通过复杂的特征流图提高了跨层融合的效果,并对四种图型进行了评估。

      在三个公共数据集上的实验结果表明,所提出方法有效地提高了最终的检测结果。

      将开源:https://github.com/huzican695/DTnet

      论文:https://arxiv.org/abs/2208.08116

      img

      #对抗#

      Two Heads are Better than One: Robust Learning Meets Multi-branch Models

      香港大学&华中科技大学&华为

      深度神经网络(DNNs)容易受到对抗性例子的影响,在这种情况下,由于输入中含有不可察觉的扰动,DNNs被误导为错误的输出。对抗性训练是一种可靠而有效的防御方法,可以大大降低神经网络的脆弱性,并成为鲁棒学习的事实标准。虽然最近的许多工作实践了以数据为中心的理念,如如何产生更好的对抗性例子或使用生成模型来产生额外的训练数据,但从模型本身来看,从深度特征分布的角度重新审视对抗性鲁棒性,可以作为一种有见地的补充。

      本篇文章提出分支正交训练(Branch Orthogonality adveRsarial Training,BORT),以获得最先进的性能,只用原始数据集进行对抗性训练。为了实践整合多个正交解决空间的设计理念,作者利用一个简单直接的多分支神经网络,在不增加推理时间的情况下使对抗性攻击黯然失色。另外启发式地提出一个相应的损失函数,分支-正交损失,以使多分支模型的每个解空间都是正交的。

      作者在CIFAR-10、CIFAR-100和SVHN上评估了所提出方法,分别针对大小为 ϵ =8/255的规范约束的扰动。大量的实验表明所提出方法在没有任何技巧的情况下超越了所有最先进的方法。与所有不使用额外数据进行训练的方法相比,在CIFAR-10和CIFAR-100上达到了67.3%和41.5%的稳健准确性(比最先进的方法提高了+7.23%和+9.07%)。

      已开源:https://github.com/huangd1999/BORT

      论文:https://arxiv.org/abs/2208.08083

      img

      #三维细胞分析#

      Deep Learning Enabled Time-Lapse 3D Cell Analysis

      加利福尼亚大学&普渡大学

      本文介绍一种用于 time-lapse 三维细胞分析的方法。具体来说,作者考虑了准确定位和定量分析亚细胞特征的问题,以及从 time-lapse 三维共聚焦细胞图像堆中追踪单个细胞的问题。细胞的异质性和多维图像的体积对全自动分析细胞的形态发生和发展是一个重大挑战。本文的动机是铺设细胞生长过程,并建立一个定量的形态发生模型。提出一种基于深度特征的分割方法来准确检测和标记每个细胞区域。基于邻接图的方法被用来提取分割后的细胞的亚细胞特征。最后,提出基于图的鲁棒跟踪算法,使用多个细胞特征来关联不同时间段的细胞。广泛的实验结果证明了所提方法的稳健性。

      将开源:https://github.com/UCSB-VRL/Time-lapse3DCellAnalysis

      论文:https://arxiv.org/abs/2208.07997

      img

      #Transformer##Human Activity Recognition#

      ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

      堪萨斯州立大学&AFOSR

      Human Activity Recognition(人体活动识别)是计算机视觉中一个新兴的重要领域,它试图确定一个人或一群人正在进行的活动。这一领域的应用范围包括生成体育比赛中的精彩视频,以及智能监控和手势识别。大多数活动识别系统依靠卷积神经网络(CNN)的组合来进行数据的特征提取,并依靠递归神经网络(RNN)来确定数据的时间相关性。本文提出并设计两个用于人体活动识别的 Transformer 神经网络:一个 recurrent transformer(ReT),一个是用于对数据序列进行预测的专门神经网络,还有一个是 vision transformer(ViT),一个为从图像中提取突出特征而优化的 transformer,以提高活动识别的速度和扩展性。作者对所提出的 transformer 神经网络与当代基于 CNN 和 RNN 的人体活动识别模型在速度和准确性方面进行了广泛的比较。

      已开源:https://github.com/JamesWensel/TranformerActivityRecognition

      论文:https://arxiv.org/abs/2208.07929

      img

      1 Reply Last reply Reply Quote 0
      • First post
        Last post