前沿分享
-
转载:我爱计算机视觉(知乎)
#人群理解#
RefCrowd: Grounding the Target in Crowd with Referring Expressions
电子科技大学
由于其重要的实际意义,Crowd understanding 已经在视觉领域引起了广泛的兴趣。遗憾的是,目前还没有在多模态领域探索人群理解的努力,该领域连接了自然语言和计算机视觉。Referring expression comprehension (REF)就是这样一个有代表性的多模态任务。目前的REF研究更多地关注于在一般情况下将目标对象从多个不同的类别中找到依据。它很难应用于复杂的现实世界的人群理解。
为了填补这一空白,作者提出一个新的具有挑战性的数据集,RefCrowd,该数据集旨在通过参考表情在人群中寻找目标人物。它不仅需要充分挖掘自然语言信息,还需要仔细关注目标人物与具有相似外表的人群之间的细微差别,从而实现从语言到视觉的细粒度映射。此外,提出一个细粒度多模态属性对比网络(FMAC)来处理人群理解中的REF。它首先将错综复杂的视觉和语言特征分解为属性感知的多模态特征,然后捕捉具有辨别力但鲁棒性的细粒度属性特征,以有效区分类似人群之间的细微差别。
在RefCrowd数据集和现有的REF数据集上,所提出的方法优于现有的最先进的(SoTA)方法。此外,实现了一个端到端的REF工具箱,用于多模态领域的深入研究。
已开源:https://github.com/QiuHeqian/MMDetection-REF
论文:https://arxiv.org/abs/2206.08172
#人群计数#
An Improved Normed-Deformable Convolution for Crowd Counting
中国海洋大学&哈尔滨工业大学
近年来,人群计数已经成为计算机视觉的一个重要问题。在大多数方法中,密度图是通过用高斯核对 ground-truth 点图进行卷积产生的,这些点图是围绕人的头部中心标记的。由于CNN中固定的几何结构和不明确的头部尺度信息,头部特征的获得是不完整的。可变形卷积被提出来利用头部CNN特征的尺度适应能力。通过学习采样点的坐标偏移,可以提高调整感受野的能力。然而,在可变形卷积中,头部没有被取样点均匀地覆盖,导致头部信息的损失。为了处理非均匀采样,本文提出一种改进的Normed-Deformable Convolution(即NDConv),由Normed-Deformable loss(即NDloss)实现。在NDloss的约束下,采样点的偏移量更趋于均匀。然后,头部的特征被更完整地获得,导致更好的性能。
以及所提出的NDConv是一个轻量级的模块,与变形卷积有相似的计算负担。在大量的实验中,该方法在ShanghaiTech A、ShanghaiTech B、UCF_QNRF和UCF_CC/50数据集上的表现优于最先进的方法,分别达到61.4、7.8、91.2和167.2的MAE。
已开源:https://github.com/bingshuangzhuzi/NDConv
论文:https://arxiv.org/abs/2206.08084
#自监督##Transformer##CVPR 2022#
Patch-level Representation Learning for Self-supervised Vision Transformers
韩国科学技术院
自监督学习(SSL)方法在从无标签的图像中学习视觉表征方面显示了令人印象深刻的结果。本文旨在通过利用底层神经网络的架构优势来进一步提高它们的性能,因为目前最先进的SSL的视觉借口任务并没有享受到这种好处,也就是说,它们是架构无关的。
特别是,专注于 Vision Transformers(ViTs),它作为一种更好的架构选择,最近获得了很多关注,在各种视觉任务中往往优于卷积网络。ViT的独特之处在于,它从图像中获取一连串不相交的斑块,并在内部处理斑块级的表征。受此启发,作者设计一个简单而有效的视觉借口任务,称为SelfPatch,用于学习更好的补丁级表征。具体来说,对每个补丁和它的邻居执行不变性,也就是说,每个补丁都把相似的邻居补丁当作正面样本。因此,用SelfPatch训练ViTs可以在斑块之间学习到更多有语义的关系(不使用人类标注的标签),这对下游的密集预测类型的任务特别有利。
尽管方法简单,但实验证明它可以显著提高现有SSL方法在各种视觉任务中的性能,包括目标检测和语义分割。具体来说,SelfPatch明显改善了最近的自监督ViT,DINO,在COCO目标检测上取得了+1.3 AP,在COCO实例分割上取得了+1.2 AP,在ADE20K语义分割上取得了+2.9 mIoU。
已开源:https://github.com/alinlab/SelfPatch
论文:https://arxiv.org/abs/2206.07990
#自动驾驶#
Level 2 Autonomous Driving on a Single Device: Diving into the Devils of Openpilot
上海人工智能实验室&上海交通大学&加州大学圣地亚哥分校&商汤科技
本次工作,为了发现Comma.ai是如何在单一设备上实现L2辅助驾驶的,作者从头开始重新实现了基本的Supercombo模型,并在公共数据集上进行测试。实验表明,原始的Openpilot和重新实现的模型都能在高速公路的场景中表现良好。为了在现实世界中测试整个系统,作者设计了一个双模型部署框架。在CARLA仿真环境中对其进行了验证,并将其部署在车上,证明了该方案是适用的。工作证实了一个简单而有效的二级辅助驾驶系统可以被集成到一个单板上,并且在大多数情况下可以很好地工作。
已开源:https://github.com/OpenPerceptionX/Openpilot-Deepdive
论文:https://arxiv.org/abs/2206.08176
#Transformer#
Adapting Self-Supervised Vision Transformers by Probing Attention-Conditioned Masking Consistency
佐治亚理工学院
视觉域适应性(DA)寻求将训练好的模型迁移到未见过的、无标签的领域,跨越分布的转变,但方法通常集中在适应卷积神经网络架构,并以监督的ImageNet表征为初始化。在这项工作中,作者将重点迁移到适应用于目标识别的现代架构——越来越流行的Vision Transformer(ViT)和基于自监督学习(SSL)的现代预训练。
受最近基于从通过遮蔽或裁剪产生的部分图像输入中学习的SSL方法的设计启发,要么学习预测缺失的像素,要么学习对这种增强的表征不变性。作者提出 PACMAC,一种简单的两阶段适应算法,用于自监督的ViTs。PACMAC首先在汇集的源和目标数据上执行域内SSL,以学习任务鉴别特征,然后在一组通过新的注意力条件掩蔽策略产生的部分目标输入中探测模型的预测一致性,以确定自训练的可靠候选。该方法与使用ViTs和自监督初始化的标准物体识别基准的竞争方法相比的一致的性能提升。
已开源:https://github.com/virajprabhu/PACMAC
论文:https://arxiv.org/abs/2206.08222
Realistic One-shot Mesh-based Head Avatars
三星&俄罗斯斯科尔科沃科学技术研究所&亚美尼亚
本篇文章提出一个基于网格的人类头部头像创建系统,ROME。使用一张照片,它可以估计出一个特定于人的头部网格和相关的神经纹理,同时编码局部的光度和几何细节。由此产生的头像被装配起来,并可以使用神经网络进行渲染,该神经网络在自然视频的数据集上与网格和纹理估计器一起训练。在实验中,观察到该系统在头部几何恢复和渲染质量方面的表现都很有竞争力,特别是在跨人重演方面。
将开源:https://github.com/SamsungLabs/rome
论文:https://arxiv.org/abs/2206.08343
#无监督##CVPR 2022#
Beyond Supervised vs. Unsupervised: Representative Benchmarking and Analysis of Image Representation Learning
马里兰大学
通过利用对比学习、聚类和其他借口任务,用于学习图像表征的无监督方法已经在标准基准上取得了令人印象深刻的结果。其结果是一个拥挤的领域–许多具有实质上不同实现方式的方法在流行的基准上产生了似乎几乎相同的结果,例如ImageNet上的线性评估。然而,单一的结果并不能说明全部问题。
本篇使用基于性能的基准,如线性评估、近邻分类和聚类,对几个不同的数据集的方法进行了比较,表明在目前的最先进技术中缺乏一个明确的领跑者。与之前只进行有监督与无监督比较的工作相比,将几种不同的无监督方法进行相互比较。为了丰富这种比较,用统一性、容忍度和中心核对齐(CKA)等测量方法分析了嵌入,并提出了自己的两个新指标:近邻图相似度和线性预测重叠度。
通过分析发现,孤立地看,单一的流行方法不应该被视为代表整个领域,未来的工作应该考虑如何利用这些方法的互补性。还利用CKA提供了一个框架,以稳健地量化增量不变性,并提醒人们,某些类型的不变性对于下游任务来说是不可取的。
已开源:https://github.com/mgwillia/unsupervised-analysis
论文:https://arxiv.org/abs/2206.08347
#Transformer#
OmniMAE: Single Model Masked Pretraining on Images and Videos
Meta AI
基于 Transformer 的架构在各种视觉领域都具有竞争力,最明显的是图像和视频。虽然之前的工作是孤立地研究这些模态,但有一个共同的架构表明,人们可以为多种视觉模态训练一个统一的模型。之前的统一建模尝试通常使用为视觉任务定制的架构,或者与单模态模型相比获得更差的性能。
本次工作展示了 masked 自动编码可以用来训练一个简单的图像和视频的Vision Transformer ,而不需要任何标记的数据。这个单一的模型在图像和视频基准上学习的视觉表征与单模态表征相当或更好,同时使用了一个更简单的架构。
特别是,该单一预训练模型可以进行微调,在ImageNet上达到86.5%,在具有挑战性的Something-v2视频基准上达到75.3%。此外,这个模型可以通过丢弃90%的图像和95%的视频补丁来学习,从而实现极快的训练。
已开源:https://github.com/facebookresearch/omnivore
论文:https://arxiv.org/abs/2206.08356
#GAN##CVPR 2022#
Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing
卡内基梅隆大学&Adobe Research
现有的 GAN 逆映射和编辑方法对于具有干净背景的对齐物体,如肖像和动物脸部,效果很好,但对于具有复杂场景布局和物体遮挡的更困难的类别,如汽车、动物和户外图像,往往很难。作者提出一种新的方法来逆映射和编辑GANs(如StyleGAN2)隐空间中的这种复杂图像。关键想法是用一个层的集合来探索逆映射,在空间上使逆映射过程适应图像的难度。学习预测不同图像片段的 “invertibility”,并将每个片段投射到一个隐藏层中。比较容易的区域可以被逆映射到生成器隐空间中较早的一层,而更具挑战性的区域可以被逆映射到较晚的特征空间。
实验表明,与最近关于复杂类别的方法相比,所提出方法获得了更好的逆映射结果,同时保持了下游的可编辑性。
已开源:https://github.com/adobe-research/sam_inversion
论文:https://arxiv.org/abs/2206.08357
#3D人脸合成#
Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields
CUHK MMLab&牛津大学VGG&商汤大学
利用图像生成模型的最新进展,现有的可控人脸图像合成方法能够生成具有一定可控性的高保真图像,例如控制生成的人脸图像的形状、表情、纹理和姿势。然而,这些方法都集中在二维图像生成模型上,在表情和姿势变化较大的情况下容易产生不一致的人脸图像。
本篇文章提出一个新的基于NeRF的有条件的三维人脸合成框架,该框架通过从三维人脸预设中施加明确的三维条件来实现对生成的人脸图像的三维可控性。其核心是 conditional Generative Occupancy Field(cGOF),它有效地执行了生成的脸部形状,以承诺一个给定的三维可变形模型(3DMM)网格。为了实现对合成图像的细粒度三维人脸形状的精确控制,还在合成算法中加入了 3D landmark loss和volume warping loss。
实验验证了所提出的方法的有效性,它能够生成高保真的人脸图像,并且比最先进的基于二维的可控人脸合成方法显示出更精确的三维可控性。
将开源:https://github.com/keqiangsun/cGOF
论文:https://arxiv.org/abs/2206.08361