多模态预训练模型【1】
-
现在的多模态预训练模型受bert的启发,从单模态扩展到多模态,总的来说,现在多模态预训练模型分别两种,双流模型和单流模型。
双流模型,顾名思义,就是两个模态先做单独的交互,然后两个模态再交互,介绍一篇典型的双流模型,LXMERT: Learning Cross-Modality Encoder Representations from Transformers。
看架构其实很简单,这是2019年的emnlp,考虑的东西没有那么多。
输入分为两部分,文本就是用bert分词,因为没有和图像联合起来输入,不用考虑segment embeddings。
图像就是通过BUTD提取,考虑区域特征和位置特征
encoder就是self_attention和cross_attention,正如上面的图所示
输出分为3部分,其中多模态的表示为CLS
预训练任务一共有5个
Masked
Cross-Modality LM,RoI-Feature Regression,DetectedLabel Classification,Cross-Modality Matching,Image Question Answering (QA)
使用图像和文本对来训练
微调的任务都是多模态理解任务,这是后来者改进的地方