Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    [机器翻译] 21.7 mRASP2

    语音识别与语义处理领域
    1
    1
    106
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 173****5160
      173****5160 last edited by 173****5160

      Contrastive Learning for Many-to-many Multilingual Neural Machine Translation
      github:

      摘要:

      现有的多语言模型聚焦于英语为中心的翻译,而非英语的方向远远落后。本文旨在一个多对多翻译系统,重点是非英语语言方向的质量。基于这样一个假设:通用的跨语言表示会导致更好的多语言翻译性能。为此提出了一种训练方法mRASP2,以获得单一统一的多语言翻译模型。mRASP2的核心在于如下两点:

      1. 通过对比学习拉近多语言表示对齐语义空间
      2. 同时使用平行和单语语料进行对齐增强

      结论:

      1. 对比学习确实能提升零资源翻译
      2. 使用单语数据,所有翻译方向上都取得了实质性的改进。
      3. 分析并可视化了本文方法,对比学习确实能够拉近不同语言语义的表征
      4. 未来打算使用更大数据集训练模型PC150

      方法:

      1.损失函数

      损失为交叉熵Lce和对比损失Lctr的加权和,|s|是平均句子长度,因为Lce是词级别的,而Lctr是序列级别的,两者有比例关系,因此要乘上平均句子长度。

      a2d8700b-7206-4977-91f6-c57372d76ad8-image.png
      xi,xj是平行语料。Lce计算常规decoder输出和label的交叉熵,旨在让解码器输出分布与真实分布一致。
      76cdb4ae-2613-4352-bda6-1376e9f2e31f-image.png
      而对比损失Lctr为了拉近语义空间中跨语言同义词的表征距离,并且拉远非同义词表征的距离。具体为:以某个样本点的源端向量表示为锚点,以该样本目标端的向量表征为正样本(过encoder),以同一个batch中其他样本点的目标端句子向量表示为负样本,最小化锚点和正样本的距离,最大化锚点和所以负样本的距离。
      f86c2f6d-9193-4f76-99fb-b43c8e4be414-image.png
      3e554e43-071a-47bc-913d-badf52716816-image.png
      其中距离使用的是余弦距离,分子是锚点和正例的距离,分母是所有负例和锚点的距离和,通过最小化Lctr就能达到拉近同义词表征、拉远非同义词表征的目的。

      引入对比学习,可以在不降低其他翻译方向的基础上,提高零资源翻译的性能。

      2.对齐增强

      b7f60901-713d-41d6-9743-a0e50cba1b23-image.png
      其中距离使用的是余弦距离,分子是锚点和正例的距离,分母是所有负例和锚点的距离和,通过最小化Lctr就能达到拉近同义词表征、拉远非同义词表征的目的。

      实验结果

      相比多语言基线模型m-Transformer,mRASP2在表中的10个方向上都有显著的提升。

      c14281db-4865-48c7-a4fc-66f7c84584e5-image.png
      在无监督翻译(至少一端的语料在预训练时出现过)上平均超过了基线十多点。
      b78da7d7-a98a-4690-89c6-aba3182157f4-image.png
      217ae51b-2072-4bbb-9993-445fe6716c53-image.png
      即使是在零资源翻译(非英语对翻译)上性能也很卓越,和桥接模型差不多(pivot)。
      14767123-15e4-477a-93e7-00d71dfbeb08-image.png

      可视化分析

      dd1b8ef1-6736-44f4-a529-80d67b4bea61-image.png
      使用T-SNE对英、日、德三种语言同义句的语义空间表征降维后可视化,发现使用mRASP(b)比基线transformer更好的拉近了多语言同义句的语义表征。

      个人总结

      对比学习yyds,接下来准备找代码试试。

      1 Reply Last reply Reply Quote 1
      • First post
        Last post