Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态预训练模型【4】

    语音识别与语义处理领域
    1
    1
    91
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      本次介绍一篇比较新的文章
      被录在CVPR2021
      VinVL: Revisiting Visual Representations in Vision-Language Models

      本文的动机在于以往的多模态预训练模型大部分集中在模态融合上面,忽视了目标检测模型的改进,基于此,提出本篇论文

      总的来说,把目标检测object detection (OD) model 模型换成了ResNeXt-152 C4 architecture,在4个数据集COCO,OpenImages,Objects365,Visual Genome (VG)上进行训练,在oscar+中预训练,再fine-tune。

      训练好的目标检测模型效果如下:

      这样的效果,和我之前看的ACL 2020一篇文章类似,都是生成region级别的caption

      作者把预训练模型看成这样

      我们就只需要把Vision的输出送入到VL中就好了,使用oscar+去预训练

      模型大小,还是分为bert-base和bert-large两个级别

      效果提升很明显,在我的关注的VQA任务上了,提升2个多点,接下来我研究研究怎么使用这个多模态预训练模型,给自己挖个坑

      参考文献:
      https://arxiv.org/abs/2101.00529

      1 Reply Last reply Reply Quote 1
      • First post
        Last post