Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态预训练模型【5】

    语音识别与语义处理领域
    1
    1
    54
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      本次介绍的文章也比较新,被录用在ACL2021
      是百度的一篇工作
      UNIMO: Towards Unified-Modal Understanding and Generation via
      Cross-Modal Contrastive Learning

      总的来说,和其他的VLP相比,把单模态的知识也引入进去,一起训练,而且以往的VLP模型有些缺点,通过多模态训练后,在单模态上效果非常不好,正常来说,应该是没有影响的,基于此,这篇论文被提出来

      扒一下UNIMO在arXiv的首次曝光,是在20年12月份,当时公布了Base版本小模型在部分任务上的效果,按照时间推演,20年中就已经在布局统一模态了,早于阿里M6[8]和悟道·文澜[9],后者在21年3月份提出了类似的模型概念。由于UNIMO首次从大模型大数据的角度正面直击统一模态概念和问题,且实验相对充分,拿来做解剖再合适不过。这次ACL论文放榜,UNIMO带来了更详细的方法描述和实验结果,我们来看一下!

      为了能够使得多种模态输入能够兼容和相互增强,还需要好的学习机制来保障。Hinton老爷子在图像领域卖力宣传了一整年的对比表示学习(Contrastive learning)[10]当仁不让,UNIMO将其泛化到了跨模态层面。听起来,让模型不断地从模态内和模态间的对比中学习,确是一种行之有效的统一表示的手段,也是UNIMO成功的核心。跨模态对比学习(Cross-Model Contrastive learning,CMCL)的主要思想是使得含义相同的图文pair(正例)能够在语义空间上更接近,含义不同的图文pair(负例)在语义空间上要距离更远。从对比中学习,对正负例的质量、数量、学习技巧有很高的要求,UNIMO也毫不吝啬的使用了多种策略:

      (1)文本改写(Text Rewriting):为了增强图文在多个粒度上的语义对齐能力,论文将图像的文本描述从句子级、短语级和词汇级别三个粒度进行了改写。在句子级层面,基于回译(Back Translation,即一句话机器翻译模型翻译成多种其他语言,再翻译回来,利用机器翻译模型的能力在不改变句子原始意图的前提下得到相同含义的其他形式句子)的技术来获得一张图片的多个正例文本。进一步,利用自然语言离散化符号的特性,基于TF-IDF相似度检索得到更多的字面词汇重复率高,但是含义不同的句子作为一张图片的强负样本。在短语级和词汇级别,首先将文本解析成场景图,然后随机替换掉其中的物体(object)、属性(attribute)和关系(relation)以及它们的组合,获得这两个粒度的强负例。

      2)图像/文本检索(Image and Text Retrieval):为了在跨模态学习中融合更多的单模态知识,图文对儿信息会被从大规模单模态数据中检索出来的背景知识进一步增强和丰富。这部分检索的数据会分别和图文对中的另一种模态数据组成弱相关对儿加入对比学习。妙就妙在这部分弱相关数据是由纯文本和纯图像数据源贡献的,我们知道单模数据在网络上是无穷尽、易收集的,这可以打开一新扇窗户。

      一个很有意思的事情是,学术界对于建模图文对儿该走单流还是双流一直都有争论。单流模型派认为图像端和文本端共享单塔结构就可以,不需要独立建模,这样便于信息传递,这方面的代表工作有微软的UNITER等。双流模型派任务需要分开建模,这样在实际使用有优势,对于弱相关也能够处理的更好,这方面的代表工作有悟道·文澜等。而UNIMO图文模态是共享参数的,看似是单流模型,但是它进行弱相关数据对比的时候两种模态是分开建模的,走的却是双塔结构,同时发挥了这两种结构的优势,让人服气!

      单模态语料除了有一部分进入检索系统进行弱相关对比学习外,大量的会单独进行文本和视觉学习,这样的好处是可以避免遗忘问题,同时也可以迫使网络同时适应两种数据源,并间接注入另一种模态的原始记忆,提高泛化性能。另一方面,图文对数据也会充分利用模态上下文相关的特性设计辅助任务。

      总体上,图像、文本、图文对三种数据是充分混合训练的,也就是说在一个大batch内会同时出现三种数据。论文公布的数据配比是1:1:5,小编猜想在训练阶段特别是在warmup时期对于技巧和手法应该有很高的要求。

      参考文献:
      https://arxiv.org/abs/2012.15409
      https://zhuanlan.zhihu.com/p/375567840

      1 Reply Last reply Reply Quote 1
      • First post
        Last post