前沿分享
-
转载:我爱计算机视觉(知乎)
#目标检测##遥感#SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery
西安电子科技大学&西蒙菲莎大学&密西西比州立大学
文章提出了一种准确而快速的 RSI 小目标检测方法,SuperYOLO,它融合了多模态数据,通过利用辅助的超分辨率(SR)学习并考虑检测精度和计算成本,对多尺度的目标进行高分辨率(HR)检测。
首先,通过去除Focus模块来构建一个紧凑的基线,以保留HR特征,并大大克服了小目标的缺失误差。其次,利用像素级多模态融合(MF)从各种数据中提取信息,以促进RSI中小目标的更合适和有效的特征。此外,设计一个简单而灵活的SR分支来学习HR特征表征,该表征可以从低分辨率(LR)输入的广阔背景中区分出小目标,从而进一步提高检测精度。此外,为了避免引入额外的计算,在推理阶段舍弃了SR分支,并且由于LR输入,网络模型的计算也减少了。
实验结果表明,在广泛使用的 VEDAI RS 数据集上,SuperYOLO 的准确率达到 73.61%(以mAP50计),比SOTA 的大型模型如 YOLOv5l、YOLOv5x 和 RS 设计的 YOLOrs 高 10% 以上。同时,SuperYOLO的GFOLPs和参数大小比 YOLOv5x 少约18.1倍和4.2倍。与最先进的模型相比,所提出的模型显示出良好的精度-速度权衡。
已开源:https://github.com/icey-zhang/SuperYOLO
论文:https://arxiv.org/abs/2209.13351
#VOS#
EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations
Uni. of Bristol&Uni. of Michigan&Uni. of Toronto
VISOR,一个新的像素标注数据集和基准套件,用于在以自我为中心的视频中分割手和活动物体。VISOR 标注了来自EPIC-KITCHENS的视频,带来了一系列新的挑战,是目前视频分割数据集所没有遇到的。具体来说,作者需要确保像素级标注的短期和长期一致性,因为目标经历了转换性的互动,例如,一个洋葱被剥皮、切丁和煮熟。我们的目标是获得皮、洋葱块、砧板、刀、锅以及行动的手的准确像素级标注。
VISOR引入了一个标注管道,部分由人工智能驱动,以实现可扩展性和质量。总的来说,作者公开发布了257个物体类别的272个手动语义掩码,9.9M的插值密集掩码,67K的手-物体关系,覆盖了36小时的179个未修剪的视频。
将开源:https://epic-kitchens.github.io/VISOR/
论文:https://arxiv.org/abs/2209.13064
#GAN##人脸重现#
StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face Reenactment
金斯顿大学&伦敦玛丽女王大学
本篇文章提出一种使用StyleGAN2的风格空间S的神经人脸重现方法。具体来说,给定一个源风格代码和一个目标风格代码,学习将它们进行 mask 和 mix ,使重现的风格代码由目标代码中对应于面部姿势的通道和源代码中对应于身份特征的通道组成。实验证明该模型可以有效地迁移目标面部姿势并保留源身份,即使在极端头部姿势的挑战性情况下也是如此,从而实现最先进的性能。该模型是在随机生成的样本上训练的,而不是成对的训练数据,使用来自三维形状模型的监督。在推理方面,所提出框架只依赖于一对源图像和目标图像。最后,通过加入预训练的GAN 逆映射方法,所提出的方法可以直接适用于真实图像的人脸重现。
将开源:https://github.com/StelaBou/StyleMask
论文:https://arxiv.org/abs/2209.13375
#遥感目标检测#
OBBStacking: An Ensemble Method for Remote Sensing Object Detection
中科院
集合方法是一种可靠的方法,可以将几个模型结合起来,以实现卓越的性能。然而,关于集合方法在遥感目标检测场景中的应用研究大多被忽视了。出现了两个问题:首先,遥感目标检测的一个独特特征是物体的定向边界框(OBB),多个OBB的融合需要进一步研究关注;其次,广泛使用的深度学习目标检测器为每个检测到的目标提供了一个分数作为信心指标,但如何在一个集合方法中有效地使用这些指标仍然是一个问题。
为此,本文提出了OBBStacking,一种与OBB兼容的集合方法,以学习的方式结合检测结果。这种组合方法有助于在高分辨率光学图像中的精细目标识别挑战赛中获得第一名,该挑战赛是2021年高分辨率地球观测图像自动判读的高芬挑战赛的特色项目。在DOTA数据集和FAIR1M数据集上的实验证明了OBBStacking的性能提高,并分析了OBBStacking的特点。
将开源:https://github.com/Haoning724/obbstacking
论文:https://arxiv.org/abs/2209.13369
#3D目标检测#
CrossDTR: Cross-view and Depth-guided Transformers for 3D Object Detection
台湾大学&Mobile Drive Technology
为了在自主驾驶中以低成本实现精确的三维目标检测,人们提出了许多多摄像头方法,并解决了单目方法的遮挡问题。然而,由于缺乏精确的深度估计,现有的多摄像头方法往往会沿着一条深度方向的射线为困难的小物体(如行人)生成多个边界框,导致召回率极低。此外,直接将深度预测模块应用于现有的多摄像头方法,一般由大型网络架构组成,不能满足自动驾驶应用的实时要求。
为此,本文提出 Cross-view and Depth-guided Transformers for 3D Object Detection, CrossDTR。首先,轻量级深度预测器被设计用来产生精确的物体稀疏深度图和低维深度嵌入,在监督过程中无需额外的深度数据集。其次,开发一个跨视角深度引导的Transformer,以融合深度嵌入以及来自不同视角相机的图像特征,并生成三维边界框。
广泛的实验表明,所提出方法在行人检测方面大大超过了现有的多摄像头方法,在整体的mAP和NDS指标方面超过了10%,约3%。此外,计算分析表明,该方法比以前的方法快5倍。
将开源:https://github.com/sty61010/CrossDTR
论文:https://arxiv.org/abs/2209.13507
#Transformer##运动预测#
Motion Transformer with Global Intention Localization and Local Movement Refinement
Max Planck Institute for Informatics, Saarland Informatics Campus
文章提出 MTR,一个用于多模态运动预测的新框架。运动查询对被定义为运动预测的模型,是全局意图定位和局部运动细化的联合优化。全局意图定位采用一小套可学习的静态意图查询来有效地捕获代理的运动意图,而局部运动细化则通过不断地探测细粒度的轨迹特征来进行迭代运动细化。实验表明,MTR 在边际和联合运动预测的挑战上都取得了最先进的性能,在Waymo开放运动数据集的排行榜上排名第一。
将开源:https://github.com/sshaoshuai/MTR
论文:https://arxiv.org/abs/2209.13508
#语义分割#
FreeSeg: Free Mask from Interpretable Contrastive Language-Image Pretraining for Semantic Segmentation
香港科技大学
本篇文章提出一个语义分割框架 FreeSeg,它使用自然语言监督,通过免费提供的原始特征图的掩码进行开放世界的分割。与大多数零样本分割方法不同,FreeSeg不需要手动的掩码和看到的类别。
相反,它通过来自可解释对比语言-图像预训练(ICLIP)的图像-文本相似性图(ITSM)生成分割,而不需要额外的算法或专有编码器。然后,通过提出的基于部分标签和像素的部分监督语义分割,完成了从密集ITSM到分割的过程。
与以前的SoTA相比,FreeSeg是直接的,数据高效的,并大大改善了性能。
将开源:https://github.com/xmed-lab/FreeSeg
论文:https://arxiv.org/abs/2209.13558