Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    前沿分享

    CV领域
    1
    1
    3
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 189****6672
      189****6672 last edited by

      转载:我爱计算机视觉(知乎)

      #3D目标跟踪##ECCV 2022#

      Large-displacement 3D Object Tracking with Hybrid Non-local Optimization

      山东大学

      众所周知,基于优化的三维目标跟踪是精确和快速的,但对大的帧间位移敏感。在本文中,作者提出一种快速而有效的非局部三维跟踪方法。

      基于错误的局部最小值主要是由平面外旋转引起的观察,文中提出一种混合方法,结合不同参数的非局部和局部优化,从而在6D姿势空间中进行有效的非局部搜索。此外,为姿势优化提出了一种预先计算的基于稳健轮廓的跟踪方法。通过使用具有多个候选对应关系的长搜索线,它可以适应不同的帧位移而不需要从粗到细的搜索。在预计算之后,姿势更新可以非常快速地进行,使非局部优化能够实时运行。

      所提出方法在小位移和大位移方面都优于以前的所有方法。对于大位移来说,准确度大大提高(81.7%v.s.19.4%)。同时,只用CPU就可以达到实时速度(>50fps)。

      将开源:https://github.com/cvbubbles/nonlocal-3dtracking

      论文:https://arxiv.org/abs/2207.12620

      img

      #目标检测##ECCV 2022 oral#

      MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones

      香港中文大学&香港科技大学&香港中文大学(深圳)&南洋理工大学

      本篇文章中,提出 MV-FCOS3D++,用于 Waymo 开放数据集挑战赛 2022 年的纯摄像头3D检测赛道。对于多视角的纯相机三维检测,基于鸟瞰图或三维几何表征的方法可以利用相邻视角之间的重叠区域的立体线索,直接进行三维检测,而不需要手工的后期处理。然而,它缺乏对二维骨干的直接语义监督,这可以通过预训练简单的基于单目的检测器来补充。

      本文所提出方法是一个遵循这一范式的4D检测的多视角框架。它建立在一个简单的单目检测器FCOS3D++的基础上,只用Waymo的目标标注进行预训练,并将多视图特征转换为三维网格空间,以检测其中的三维物体。作者设计了一个用于单帧理解和时间立体匹配的双路径颈部,以纳入多帧信息。

      所提出方法最终用一个模型实现了49.75%的mAPL,并在WOD挑战赛中获得第二名,在训练期间没有任何基于LiDAR的深度监督。

      已开源:https://github.com/Tai-Wang/Depth-from-Motion

      论文:https://arxiv.org/abs/2207.12716

      img

      #超分辨率#

      Criteria Comparative Learning for Real-scene Image Super-Resolution

      真实场景图像超分辨率的目的是将真实世界中的低分辨率图像还原成高质量的版本。一个典型的 RealSR 框架通常包括多个标准的优化,这些标准是为不同的图像属性而设计的,通过隐含的假设,ground-truth 图像可以提供不同标准之间的良好权衡。

      然而,由于不同图像属性之间固有的对比关系,这一假设在实践中很容易被违反。对比学习(Contrastive Learning,CL)提供一个很有前途的方法,通过使用三重对比损失来学习鉴别性的特征来缓解这个问题。尽管对比学习在许多计算机视觉任务中取得了巨大的成功,但由于在这种情况下很难定义有效的正面图像对,因此将对比学习引入RealSR是不容易的。

      受到标准之间也可能存在对比关系的启发,在本篇文章中,作者为RealSR提出一种新的训练范式,名为标准比较学习(Cria-CL),通过开发定义在标准而不是图像斑块上的对比损失。此外,还提出一个空间投影仪来获得RealSR中Cria-CL的良好视图。

      实验证明,与典型的加权回归策略相比,所提出方法在类似的参数设置下取得了明显的改进。

      将开源:https://github.com/House-Leo/RealSR-Zero

      论文:https://arxiv.org/abs/2207.12767

      img

      #ICPR 2022 Oral##动作识别#

      Unsupervised Domain Adaptation for Video Transformers in Action Recognition

      University of Trento&Universidade Federal do Esp´ırito Santo&University of Verona&PAVIS等

      本篇文章提出一种 UDA 方法,用于视频动作识别。它利用最近在空间-时间 Transformer 方面的进展,建立一个强大的源模型,可以更好地泛化到目标域。此外,由于引入从信息瓶颈原则衍生出来的新的对齐损失项,该架构可以学习域不变的特征。文中报告了UDA的两个视频动作识别基准的结果,显示了在HMDB↔UCF以及Kinetics→NEC-Drone上的最先进的性能,后者更具挑战性。这也证明了所提出方法在处理不同程度的域迁移方面的有效性。

      将开源:https://github.com/vturrisi/UDAVT

      论文:https://arxiv.org/abs/2207.12842

      img

      #视频分类#

      Visually explaining 3D-CNN predictions for video classification with an adaptive occlusion sensitivity analysis

      筑波大学&Fujitsu Research of America

      本篇文章提出一种直观解释三维卷积神经网络(CNN)决策过程的方法,并对遮挡敏感度分析进行了时间上的扩展。这里的关键思想是在输入的三维时空数据空间中用三维掩码遮挡特定的数据量,然后测量输出分数的变化程度。产生较大变化程度的遮挡体积数据被认为是分类的一个比较关键的因素。然而,虽然遮挡敏感度分析通常用于分析单一图像分类,但将这一想法应用于视频分类并不那么简单,因为简单的固定立方体无法处理运动。为此,作者对三维遮挡掩码的形状进行调整,以适应目标物体的复杂运动。

      flexible mask adaptation 是通过考虑从输入视频数据中提取的光流的时间连续性和空间共现性来进行的。并进一步提出通过使用分数相对于输入图像的一阶偏导来近似所提出方法,以减少其计算成本。通过与传统方法在UCF-101上的删除/插入度量和指向度量的各种广泛比较,证明了所提出方法的有效性。

      已开源:https://github.com/uchiyama33/AOSA

      论文:https://arxiv.org/abs/2207.12859

      img

      #医学图像分割#

      Generalized Probabilistic U-Net for medical image segementation

      University Medical Center Utrecht&埃因霍芬理工大学

      文中提出 Generalized Probabilistic U-Net,是对 Probabilistic U-Net 的扩展,允许更多形式的高斯分布作为隐空间分布,可以更好地接近参考分割的不确定性。作者利用LIDC-IDRI数据集研究了隐空间分布的选择对捕捉参考分割的不确定性的影响。作者表明,分布的选择会影响预测的样本多样性以及它们与参考分割的重叠性。对于LIDC-IDRI数据集,表明使用高斯混合物会使广义能量距离(GED)指标相对于标准的概率U-Net有明显的改善。

      已开源:https://github.com/ishaanb92/GeneralizedProbabilisticUNet

      论文:https://arxiv.org/abs/2207.12872

      img

      #VQA#

      LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection

      浙江大学&牛津大学&爱丁堡大学

      视觉问答(VQA)通常需要对视觉概念和语言语义的理解,这依赖于外部知识。大多数现有的方法利用预先训练好的语言模型或/和非结构化文本,但这些资源中的知识往往是不完整和有噪音的。一些方法倾向于使用知识图谱(KGs),它通常具有密集的结构化知识,但研究仍然相当初步。

      本篇文章提出 LaKo,一种通过后期知识到文本注入的知识驱动的 VQA 方法。为了有效地纳入外部KG,作者将三要素迁移到文本中,并提出一个后期注入机制。最后,将 VQA 作为一项文本生成任务,采用有效的编码器-解码器范式。在对OKVQA数据集的评估中,所提出方法取得了最先进的结果。

      已开源:https://github.com/hackerchenzhuo/LaKo

      论文:https://arxiv.org/abs/2207.12888

      img

      #基于文本的合成#

      Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

      Ludwig-Maximilian University Munich

      新的架构改进了生成性图像合成,从而在各种任务中实现了出色的视觉质量。特别值得注意的是 "AI-Art "领域,随着 CLIP 等强大的多模态模型的出现,该领域得到了空前的发展。通过结合语音和图像合成模型,所谓的 "prompt-engineering "已经确立,其中精心选择和组成的句子被用来在合成的图像中实现某种视觉风格。

      本篇文章中,作者提出一种基于检索增强的扩散模型(RDMs)的替代方法。在RDMs中,每一个训练实例在训练过程中都会从外部数据库中检索出一组最近的邻居,而扩散模型则以这些信息样本为条件。在推理(抽样)过程中,用一个更专门的数据库取代检索数据库,例如,只包含特定视觉风格的图像。这提供了一种新的方式,在训练后提示一般的训练模型,从而指定一种特定的视觉风格。正如实验所显示的,这种方法比在文本提示中指定视觉风格要好。

      已开源:https://github.com/CompVis/latent-diffusion

      论文:https://arxiv.org/abs/2207.13038

      动图封面

      #图像分类#

      AMF: Adaptable Weighting Fusion with Multiple Fine-tuning for Image Classification

      商汤&上海人工智能实验室&新南威尔士大学&澳大利亚国立大学&科廷大学

      微调作为一种迁移学习方法被广泛地应用于图像分类任务中。它重新利用源任务中的知识来学习并在目标任务中获得高性能。微调能够缓解训练数据不足和新数据的昂贵标签的挑战。然而,标准的微调在复杂的数据分布中性能有限。

      为了解决这个问题,作者提出可适应的多重微调方法,它可以自适应地确定每个数据样本的微调策略。在这个框架中,定义了多个微调设置和一个策略网络。适应性多调中的策略网络可以动态地调整到最佳权重,将不同的样本送入使用不同微调策略训练的模型。

      所提出方法在FGVC-Aircraft和Describable Texture数据集上比标准微调方法高出1.69%和2.79%,在Stanford Cars、CIFAR-10和Fashion-MNIST数据集上的表现也相当。

      将开源:https://github.com/XuyangSHEN/AMF-Adaptable-Weighting-Fusion-with-Multiple-Fine-tuning-for-Image-Classification

      论文:https://arxiv.org/abs/2207.12944

      img

      #相机校准#

      A Reliable Online Method for Joint Estimation of Focal Length and Camera Rotation

      A*star&约克大

      从建筑环境的规律性中得出的线性透视可以用来在线重新校准内在和外在的相机参数,但由于场景的不规则性、线段估计的不确定性和背景杂波,这些估计可能是不可靠的。因此,作者通过四项举措来应对这一挑战。

      首先,使用PanoContext全景图像数据集,在广泛的场景、焦距和相机姿势中策划一个新的而现实的平面投影数据集。其次,使用这个新的数据集和YorkUrbanDB来系统地评估文献中经常出现的线性透视偏差措施,并表明偏差措施和似然模型的选择对可靠性有巨大影响。然后,利用这些发现创建一个新的在线相机校准系统,称之为fR,并表明它优于先前的技术水平,大大减少了估计相机旋转和焦距的误差。最后,设计一种新的和有效的估计不确定性的方法,通过战略性地选择用于重新校准的框架,可以极大地提高性能关键型应用的在线可靠性。

      将开源:https://github.com/ElderLab-York-University/OnlinefR

      论文:https://arxiv.org/abs/2207.12934

      img

      1 Reply Last reply Reply Quote 1
      • First post
        Last post