多模态预训练模型【2】
-
前面提到是双流模型,接下来我们介绍单流模型,Unified Vision-Language Pre-Training for Image Captioning and VQA,aaai2020
单流模型,顾名思义,就是通过一个流来学习视觉语言的整体表示
本文的动机在于此模型可以同时fine-tuned视觉语言理解和生成任务,共享encode和decoder参数。
图像的输入考虑3部分,对应的区域特征,区域标签概率,区域的位置信息,通过变成一个
文本输入和bert一样
这样拼接起来得到的格式如下:
预训练任务分为两个
唯一的区别在于mask矩阵
参考文献:
https://arxiv.org/abs/1909.11059