多模态预训练模型【4】
-
本次介绍一篇比较新的文章
被录在CVPR2021
VinVL: Revisiting Visual Representations in Vision-Language Models本文的动机在于以往的多模态预训练模型大部分集中在模态融合上面,忽视了目标检测模型的改进,基于此,提出本篇论文
总的来说,把目标检测object detection (OD) model 模型换成了ResNeXt-152 C4 architecture,在4个数据集COCO,OpenImages,Objects365,Visual Genome (VG)上进行训练,在oscar+中预训练,再fine-tune。
训练好的目标检测模型效果如下:
这样的效果,和我之前看的ACL 2020一篇文章类似,都是生成region级别的caption作者把预训练模型看成这样
我们就只需要把Vision的输出送入到VL中就好了,使用oscar+去预训练模型大小,还是分为bert-base和bert-large两个级别
效果提升很明显,在我的关注的VQA任务上了,提升2个多点,接下来我研究研究怎么使用这个多模态预训练模型,给自己挖个坑