Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态预训练模型【3】

    语音识别与语义处理领域
    1
    1
    52
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      再这篇之前,我又看了一篇eccv 2020的Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks,看趋势是单流模型在多模态预训练模型占据主导地位。
      这一篇也是单流模型,但考虑的角度不一样
      这篇文献名字叫:Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers,这篇还在arxiv上面挂着,还没有被录用
      fine-tined的任务都是多模态理解任务

      动机在于以往的多模态预训练模型都是在视觉方向都是采用region feature(2018 BUTD)来预训练,这篇用grid feature来预训练,因为region feature毕竟是借助目标检测的任务,具有任务局限性,比如分类的种类,形状,边框大小等等,因此提出这个模型
      文本还是正常的bert,图像通过一个backbone提取特征再加随机采样(防止过拟合,借鉴dropout的思想),不过有一点不同的是提取图像的backbone是可训练。
      预训练任务分为两个,都是比较常见的,一个是Masked Language Modeling,一个是Image-Text Matching
      这篇文献没有开源代码,确实挺需要算力的

      下一次介绍应该就视觉transformers,给自己挖个坑

      参考文献:
      https://arxiv.org/abs/2004.00849

      1 Reply Last reply Reply Quote 1
      • First post
        Last post