将开源的前沿论文
-
转载: 我爱计算机视觉(知乎)
#目标检测##YOLO#YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
美团
多年来,YOLO 系列一直是高效目标检测的事实上的工业级标准。YOLO 社区以压倒性的优势丰富了它在众多硬件平台和丰富场景中的应用。在这份技术报告中,作者努力把它的极限推向新的水平,以坚定不移的心态向行业应用迈进。
考虑到现实环境中对速度和准确性的不同要求,作者广泛地研究了工业界或学术界在目标检测方面的最新进展。具体来说,大量吸收了近期网络设计、训练策略、测试技术、量化和优化方法的思想。在此基础上,整合想法和实践,建立一套不同规模的可部署的网络,以适应多样化的用例。在YOLO作者的授权下,将其命名为YOLOv6,欢迎用户和贡献者的进一步改进。
对于性能的展示,YOLOv6-N在COCO数据集上达到了35.9%的AP,在NVIDIA Tesla T4 GPU上的吞吐量为1234 FPS。YOLOv6-S在495FPS的情况下达到了43.5%的AP,超过了其他相同规模的主流检测器~(YOLOv5-S、YOLOX-S和PPYOLOE-S)。
量化版本YOLOv6-S甚至在869 FPS时带来了新的最先进的43.3%的AP。此外,YOLOv6-M/L也比其他具有类似推理速度的检测器取得了更好的准确性表现(即49.5%/52.3%)。
已开源:https://github.com/meituan/YOLOv6
论文:https://arxiv.org/abs/2209.02976
#人群计数##半监督#
Semi-supervised Crowd Counting via Density Agency
西安交通大学&中科院&哈尔滨工业大学&鹏城实验室
本篇文章提出一种新的 agency-guided 半监督计数方法。首先,建立一个可学习的辅助结构,density agency,使识别的前景区域特征接近于相应的密度子类(代理),并推开背景特征。第二,提出一个 density-guided 的对比学习损失来巩固骨干特征提取器。第三,通过使用 transformer 结构建立了一个回归头,以进一步细化前景特征。最后,提供了一个有效的噪声抑制损失,以减少标注噪声的负面影响。
在四个具有挑战性的人群计数数据集上进行的广泛实验表明,所提出方法比最先进的半监督计数方法取得了更大的性能优势。
将开源:https://github.com/LoraLinH/Semi-supervised-Crowd-Counting-via-Density-Agency
论文:https://arxiv.org/abs/2209.02955
#深度估计##TPAMI 2022#
BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360 Depth Estimation
台湾清华大学&Phiar Technologies&台湾阳明交通大学
由于球面相机的兴起,单目 360 深度估计成为许多应用的重要技术(例如,自主系统)。因此,提出了最先进的单目 360 深度估计框架,如 BiFuse 的 bi-projection fusion(双投影融合)。为了训练这样的框架,需要大量的全景图以及由激光传感器捕获的相应的深度 ground truths,这大大增加了数据收集的成本。
此外,由于这样的数据收集程序很耗时,将这些方法扩展到不同场景的可扩展性成为一个挑战。为此,从360视频中自训练单目深度估计的网络是缓解这一问题的方法之一。然而,目前还没有将双投影融合纳入自训练方案的框架,这高度限制了自监督的性能,因为双投影融合可以利用来自不同投影类型的信息。
文章提出 BiFuse++ 来探索双投影融合和自训练场景的结合。具体来说,提出一个新的融合模块和对比度感知光度损失,以改善 BiFuse 的性能,并提高真实世界视频中自训练的稳定性。在基准数据集上进行了监督和自监督的实验,并取得了最先进的性能。
将开源:https://github.com/fuenwang/BiFusev2
论文:https://arxiv.org/abs/2209.02952
#图像分类#
What does a platypus look like? Generating customized prompts for zero-shot image classification
华盛顿大学&谷歌&ML Collective
Open vocabulary models (开放词汇表模型)是一种有前途的图像分类新范式。与传统的分类模型不同,开放词汇模型在推理过程中用自然语言指定任何任意的类别集合进行分类。这种自然语言被称为 “prompts”,通常由一组手写的模板(例如,“一张{}的照片”)组成,这些模板与每个类别的名称一起完成。这项工作引入一种简单的方法来产生更高的准确性的提示,而不使用图像领域的明确知识,并且手工构建的句子要少得多。
为了实现这一目标,作者将开放的词汇模型与大型语言模型(LLMs)结合起来,创建通过语言模型的定制提示(CuPL,读作 “couple”)。具体来说,作者利用LLM中包含的知识,以生成许多为每个对象类别定制的描述性句子。发现,这种直接而普遍的方法提高了一系列零样本图像分类基准的准确性,包括在ImageNet上获得超过一个百分点的收益。最后,这种方法不需要额外的训练,并且保持完全的零样本。
已开源:https://github.com/sarahpratt/CuPL
论文:https://arxiv.org/abs/2209.03320
#三维目标检测#
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection
复旦&Shanghai Collaborative Innovation Center on Intelligent Visual Computing &美团
融合 LiDAR 和相机信息对于实现自主驾驶系统中准确和可靠的三维目标检测至关重要。然而,由于将来自两种截然不同模式的多粒度几何特征和语义特征结合起来的难度,是个挑战。
近期方法旨在通过将二维相机图像中的点(称为种子)提升到三维空间进行融合来探索相机特征的语义密度,它们大致可以分为:1)原始点的早期融合,目的是在早期输入阶段增强三维点云;2)BEV(鸟瞰)图的后期融合,在检测头之前合并LiDAR和相机BEV特征。虽然这两种方法在提高组合特征的表示能力方面有其优点,但这种单级融合策略是解决上述挑战的次优方案。它们的主要缺点是无法充分交互来自两种不同模态的多粒度语义特征。
为此,提出一个新的框架,它侧重于多粒度LiDAR和相机特征的多尺度渐进式交互。所提出方法缩写为MDMSFusion,在三维目标检测方面取得了最先进的结果,在nuScenes验证集上取得了69.1的mAP和71.8的NDS,在nuScenes测试集上取得了70.8的mAP和73.2的NDS,到提交时在单模型非集合方法中分别排名第一和第二。
将开源:https://github.com/SxJyJay/MSMDFusion
论文:https://arxiv.org/abs/2209.03102
#遥感##目标检测#
Multi-Grained Angle Representation for Remote Sensing Object Detection
北京理工大学&中科院&湖北经济学院
在遥感场景中,面向任意的目标检测(AOOD)对图像理解起着重要作用。现有的AOOD方法面临着角度表示的模糊性和高成本的挑战。为此,我们提出了一种由粗粒度角度分类(CAC)和细粒度角度回归(FAR)组成的多粒度角度表示方法。
在几个公共遥感数据集上进行了广泛的实验,这些实验证明了 MGAR 的有效性。此外,在嵌入式设备上的实验表明,MGAR对轻量级部署也很友好。
将开源:https://github.com/haohaolalahao
论文:https://arxiv.org/abs/2209.02884
#显著目标检测#
A Weakly Supervised Learning Framework for Salient Object Detection via Hybrid Labels
北京交通大学&宁波大学&香港城市大学
完全监督显著目标检测(SOD)方法已经取得了很大的进展,但是这类方法往往依赖于大量的像素级标注,而这些标注是耗时和劳动密集的。
在本文中,作者专注于混合标签下新的弱监督SOD任务,其中监督标签包括由传统无监督方法产生的大量粗略标签和少量真实标签。为了解决这个任务中标签噪声和数量不平衡的问题,作者设计一个新的管道框架,其中有三种复杂的训练策略。在模型框架方面,将该任务解耦为标签细化子任务和显著目标检测子任务,这两个子任务相互配合,交替训练。具体来说,R-Net 被设计成一个双流编码器-解码器模型,配备 Blender with Guidance and Aggregation (BGA)机制,旨在为更可靠的伪标签修正粗略的标签,而S-Net是一个可替换的SOD网络,由当前R-Net生成的伪标签监督。只需要使用训练好的S-Net进行测试。此外,为了保证网络训练的有效性和效率,设计了三种训练策略,包括 alternate iteration 机制、group-wise incremental 机制和 credibility verification 机制。
在五个SOD基准上的实验表明,所提出方法在质量上和数量上都达到了与弱监督/无监督方法竞争的性能。
将开源:https://github.com/rmcong/Hybrid-Label-SOD_TCSVT2022
论文:https://arxiv.org/abs/2209.02957
#动作识别#
Shifting Perspective to See Difference: A Novel Multi-View Method for Skeleton based Action Recognition
浙江大学&伯恩茅斯大学
基于骨架的人体动作识别是一个长期的挑战,因为它具有复杂的动态。动态的一些细粒度的细节在分类中起着至关重要的作用。现有的工作主要集中在设计具有更复杂相邻矩阵的增量神经网络,以捕捉关节关系的细节。然而,仍然难以区分那些具有大致相似的运动模式但属于不同类别的动作。有趣的是,作者发现运动模式的细微差别可以被明显放大,并且通过指定的视角方向,很容易分辨出来,而这一特性之前还没有被充分探索过。与之前的工作大不相同的是,本次工作提出一个概念上简单而有效的多视图策略,通过动态视图特征的集合来识别动作,从而提高了性能。
具体来说,作者设计一个新的 Skeleton-Anchor Proposal (SAP)模块,它包含一个多头结构来学习一组视图。对于不同视图的特征学习,引入一个新的角度表示法来转换不同视图下的动作,并将转换结果输入基线模型。而所设计模块可以与现有的动作分类模型无缝地工作。与基线模型相结合,SAP模块在许多具有挑战性的基准上表现出明显的性能提升。此外,全面的实验表明,该模型一直打败了最先进的模型,尤其是在处理损坏的数据时仍然有效和鲁棒。
已开源:https://github.com/ideal-idea/SAP
论文:https://arxiv.org/abs/2209.02986
#视频目标分割#
Treating Motion as Option to Reduce Motion Dependency in Unsupervised Video Object Segmentation
延世大学&韩国科学技术研究院
无监督视频目标分割(VOS)的目的是在像素层面上检测视频序列中最突出的物体。在无监督的VOS中,大多数最先进的方法除了利用外观线索外,还利用了从光流图中获得的运动线索,以利用显著目标与背景相比通常有独特的运动这一特性。然而,由于它们过度依赖运动线索,而运动线索在某些情况下可能是不可靠的,因此无法实现稳定的预测。
为了减少现有双流VOS方法的运动依赖性,作者提出一种新型的 motion-as-option network ,可以选择利用运动线索。此外,为了充分利用所提出的网络的特性,即不总是需要运动,引入一个 collaborative network 学习策略。在所有的公共基准数据集上,该网络提供了最先进的性能和实时推理速度。
已开源:https://github.com/suhwan-cho/TMO
论文:https://arxiv.org/abs/2209.03138
#视频目标分割#
Pixel-Level Equalized Matching for Video Object Segmentation
延世大学&韩国科学技术研究院
特征相似性匹配,将参考帧的信息转移到查询帧上,是半监督视频目标分割的一个关键组成部分。如果采用主观性匹配,很容易出现背景干扰物并降低性能。Bijective 匹配机制试图通过限制被转移到查询帧的信息量来防止这种情况,但有两个限制:1)surjective matching 不能被充分利用,因为它在测试时被转换为surjective matching;2)测试时需要手动调整以搜索最佳的超参数。
为了克服这些限制,同时确保可靠的信息传输,作者引入一个均衡的匹配机制。为了防止参考框架信息被过度引用,通过简单地与查询一起应用 softmax 操作来均衡对查询框架的隐藏贡献。在公共基准数据集上,所提出的方法取得了与最先进的方法相当的性能。
已开源:https://github.com/suhwan-cho/EMVOS
论文:https://arxiv.org/abs/2209.03139