多模态预训练模型【6】
-
本次介绍一篇eccv 2020的文章,
来自微软
题目为UNITER: UNiversal Image-TExt
Representation Learning
这篇文章的动机在于以往的为多模态任务设计的模型都是与任务高度相关的,不具有泛化性,这也是多模态预训练模型提出的动机
与其他预训练模型相比,UNITER使用条件mask代替随机mask在文本和region mask上。
在多模态预训练模型中,一般都是图像-文本对对齐任务,但只在在粗粒度上语义对齐,而在UNITER额外设计了region-word级别的对齐,是在细粒度上的语义对齐,之前看的ACL 2021那篇文章也提到了细粒度对齐的问题模型架构图如下
预训练任务分为这几个
具体细节不看了,因为这篇文章算比较老的,和那些新的多模态预训练模型(oscar)相比