Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    LLD: 内部数据指导的标签去噪方法【ACL 2022】

    语音识别与语义处理领域
    1
    1
    180
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 155****7220
      155****7220 last edited by Alice_恒源云

      很多数据集中的标签都存在错误,即便它们是由人来标注的,错误标签的存在会给模型训练带来某些负面影响。目前缓解这种影响有诸如删除错误标签、降低其权重等方法。ACL2022有一篇名为《A Light Label Denoising Method with the Internal Data Guidance》的投稿提出了一种基于样本内部指导的方法解决这个问题

      先前有研究表明同一类别的样本在本质上是相似和相关的,不同类别的样本存在明显差异。在文本分类任务中,两个有着相似内容的句子应该被预测为同一个类别,但是实际情况并不总是这样。当训练数据面临一定程度的噪声时,这个问题可能会更加严重,因为模型只收到标签的指导/监督。这就自然而然提出了一个问题:除了标签之外,我们能否从训练样本之间的关系寻求指导?

      以文本分类数据为例,有nnn个样本的数据集可以被定义为
      e3bb5224-04f0-44fc-81aa-7741afc6cbb1-image.png
      其中,yi∈c1,c2,…,cmy_i\in {c_1, c_2,…,c_m}yi​∈c1​,c2​,…,cm​表示共有mmm类

      Contextual Representation

      我们首先需要一个指标判断两个句子是否相似。目前有两大类文本相似度计算方法,第一种是基于传统的符号表征,例如编辑距离、Jaccard Similarity Coeffieient以及Earth Mover’s Distance;第二种是将文本映射为稠密的向量,然后计算它们的向量相似度。第一种方法过于依赖token的表面信息,第二种方法需要使用外部数据对模型进行预训练,而这个外部数据和我们的任务数据可能不是同一领域的。因此作者基于Postive Pointwise Mutual Information (PPMI)提出了一个新的上下文表征方法

      首先,我们用一个长度为2的滑动窗口统计数据集中所有token的共现矩阵CCC。Cwi,wjC_{w_i, w_j}Cwi​,wj​​表示前一个词是wiw_iwi​,后一个词是wjw_jwj​出现的次数,然后我们计算CCC的PPMI矩阵EEE:
      efa9b490-55fe-4d50-97fe-12e6e7a9c1d3-image.png
      其中,P(wi),P(wj),P(wi,wj)P(w_i), P(w_j), P(w_i, w_j)P(wi​),P(wj​),P(wi​,wj​)分别是从共现矩阵CCC中计算得到的。最终,向量EwiE_{w_{i}}Ewi​​是词wiw_iwi​的表示

      Word Weight

      由于不同的词对于句子含义的贡献不同,我们更关注那些对分类更有帮助的词,而不是一些常见的词(例如a, the, of)。作者提出一个计算词wiw_iwi​权重的算法:
      88cf8cd3-4fc8-42ca-870f-999af31ba54d-image.png
      其中,ccc是词wiw_iwi​出现频率最高的类别,pcwip_c^{w_i}pcwi​​是类别ccc中单词wiw_iwi​的样本数,pc~wip_{\tilde{c}}^{w_i}pc~wi​​是除了类别ccc之外所有类别中单词wiw_iwi​的样本数,∣∣pc∣∣1||p_c||_1∣∣pc​∣∣1​是类别ccc的样本数,α\alphaα是一个小的平滑值(例如0.1)。

      Guiding the Training

      给定包含ddd个单词的句子aaa,以及包含eee个单词的句子bbb,它们的相似度为:
      467823a1-6cf1-4639-8941-f0e7cbb0d784-image.png
      很明显,Tsim(a,b)T_{\text{sim}}(a,b)Tsim​(a,b)总是大于0的,因为qwiq_{w_i}qwi​​一定大于等于0,向量EiE_{i}Ei​中的元素根据计算公式也都是大于等于0的,cos⁡(A,B)\cos(A,B)cos(A,B)中,当向量AAA和BBB中的元素都大于等于0时,结果一定大于0

      在含有mmm个类别的文本分类任务中,模型对于第iii个样本的预测概率分布可以记为
      b5c24fe1-eebe-4de1-9560-d976daf38982-image.png
      其中,likl_{ik}lik​>000并且∑k=1mlik=1\sum_{k=1}^m l_{ik}=1∑k=1m​lik​=1。因此模型对于样本aaa和bbb预测概率分布的相似度为
      4ecf834a-5383-491b-aa7a-ada310c661be-image.png
      在训练过程中,损失函数定义为:
      b74a16e4-1e21-4f86-8fa1-5e090169dcd6-image.png
      其中
      b2d4406a-0ad5-4e7f-9319-725b53005326-image.png
      换言之,当两个句子的相似度大于阈值β\betaβ时,我们就认为它们非常相似,那么它们的标签大概率应该是相同的,反映到预测概率分布上,它们预测概率分布向量的余弦相似度应该接近于1才对,如果单纯这么考虑的话,实际上我们有如下定义的损失函数
      bd8d75ba-22df-46e3-afe5-d27cb4b73ce4-image.png
      极端情况下,当Lsim(i,j)=1L_{\text{sim}}(i,j)=1Lsim​(i,j)=1时,加法后面所带来的损失就为0了;当Lsim(i,j)=0L_{\text{sim}}(i,j)=0Lsim​(i,j)=0时,后面是有损失的

      Result

      论文的实验阵容还算豪华,某种程度上来说让人比较意外的地方是这种简单修改损失函数的办法居然超过了R-Drop。其中LLD-DW将矩阵EEE用Word2vec进行替换,其他步骤保持不变,结果发现用Word2vec反而没有作者提出的简单统计方法好

      个人总结

      这篇文章本质上来讲,可以看作是多目标联合训练,除了传统的分类任务,引入了一个新的任务,这个任务的目标是希望两个句子的相似度与它们预测概率分布的相似度比较接近。反映到损失函数中来看就是在传统损失的后面添加了一项。阅读完这篇论文之后,说实话我不太确定它能否被ACL录用

      1 Reply Last reply Reply Quote 4
      • Referenced by  Alice_恒源云 Alice_恒源云 
      • Referenced by  Alice_恒源云 Alice_恒源云 
      • Referenced by  Alice_恒源云 Alice_恒源云 
      • First post
        Last post