Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态预训练模型【6】

    语音识别与语义处理领域
    1
    1
    44
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      本次介绍一篇eccv 2020的文章,
      来自微软
      题目为UNITER: UNiversal Image-TExt
      Representation Learning
      这篇文章的动机在于以往的为多模态任务设计的模型都是与任务高度相关的,不具有泛化性,这也是多模态预训练模型提出的动机
      与其他预训练模型相比,UNITER使用条件mask代替随机mask在文本和region mask上。
      在多模态预训练模型中,一般都是图像-文本对对齐任务,但只在在粗粒度上语义对齐,而在UNITER额外设计了region-word级别的对齐,是在细粒度上的语义对齐,之前看的ACL 2021那篇文章也提到了细粒度对齐的问题

      模型架构图如下

      预训练任务分为这几个

      具体细节不看了,因为这篇文章算比较老的,和那些新的多模态预训练模型(oscar)相比

      参考文献:
      https://arxiv.org/abs/1909.11740

      1 Reply Last reply Reply Quote 0
      • First post
        Last post