Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态预训练模型【2】

    语音识别与语义处理领域
    1
    1
    50
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      前面提到是双流模型,接下来我们介绍单流模型,Unified Vision-Language Pre-Training for Image Captioning and VQA,aaai2020
      单流模型,顾名思义,就是通过一个流来学习视觉语言的整体表示

      本文的动机在于此模型可以同时fine-tuned视觉语言理解和生成任务,共享encode和decoder参数。
      图像的输入考虑3部分,对应的区域特征,区域标签概率,区域的位置信息,通过变成一个

      文本输入和bert一样
      这样拼接起来得到的格式如下:

      预训练任务分为两个

      唯一的区别在于mask矩阵

      参考文献:
      https://arxiv.org/abs/1909.11059

      1 Reply Last reply Reply Quote 1
      • First post
        Last post