Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态预训练模型【1】

    语音识别与语义处理领域
    1
    1
    59
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      现在的多模态预训练模型受bert的启发,从单模态扩展到多模态,总的来说,现在多模态预训练模型分别两种,双流模型和单流模型。
      双流模型,顾名思义,就是两个模态先做单独的交互,然后两个模态再交互,介绍一篇典型的双流模型,LXMERT: Learning Cross-Modality Encoder Representations from Transformers。

      看架构其实很简单,这是2019年的emnlp,考虑的东西没有那么多。
      输入分为两部分,文本就是用bert分词,因为没有和图像联合起来输入,不用考虑segment embeddings。

      图像就是通过BUTD提取,考虑区域特征和位置特征

      encoder就是self_attention和cross_attention,正如上面的图所示
      输出分为3部分,其中多模态的表示为CLS

      预训练任务一共有5个
      Masked
      Cross-Modality LM,RoI-Feature Regression,DetectedLabel Classification,Cross-Modality Matching,Image Question Answering (QA)
      使用图像和文本对来训练
      微调的任务都是多模态理解任务,这是后来者改进的地方

      参考文献:
      https://arxiv.org/abs/1908.07490

      1 Reply Last reply Reply Quote 2
      • First post
        Last post