多模态预训练模型【3】
-
再这篇之前,我又看了一篇eccv 2020的Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks,看趋势是单流模型在多模态预训练模型占据主导地位。
这一篇也是单流模型,但考虑的角度不一样
这篇文献名字叫:Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers,这篇还在arxiv上面挂着,还没有被录用
fine-tined的任务都是多模态理解任务
动机在于以往的多模态预训练模型都是在视觉方向都是采用region feature(2018 BUTD)来预训练,这篇用grid feature来预训练,因为region feature毕竟是借助目标检测的任务,具有任务局限性,比如分类的种类,形状,边框大小等等,因此提出这个模型
文本还是正常的bert,图像通过一个backbone提取特征再加随机采样(防止过拟合,借鉴dropout的思想),不过有一点不同的是提取图像的backbone是可训练。
预训练任务分为两个,都是比较常见的,一个是Masked Language Modeling,一个是Image-Text Matching
这篇文献没有开源代码,确实挺需要算力的
下一次介绍应该就视觉transformers,给自己挖个坑