数据增强用于跨领域命名实体识别
-
Data Augmentation for Cross-Domain Named Entity Recognition
数据增强用于跨领域命名实体识别
Abstract
目前在命名实体识别(NER)方面的工作表明,数据增强技术可以产生更健壮的模型。然而,大多数现有技术都专注于在带注释的数据非常有限的低资源场景中增强域内数据。相反,本文研究了用于NER任务的跨域数据增强。本文研究了通过将来自高资源域的数据投影到低资源域来利用这些数据的可能性。具体地说,本文提出了一种新的神经结构,通过学习模式(如样式、噪声、缩略语等)将数据表示从高资源领域转换到低资源领域。在区分它们的文本和两个域对齐的共享特征空间中。本文对不同的数据集进行了实验,结果表明,与仅使用高资源域的数据相比,将数据转换为低资源域表示获得了显著的改进。
1 Instruction
随着预训练语言模型的最近进展,命名实体识别(NER)的性能有了显著的提高。然而,此类模型的高性能通常依赖于训练数据的大小和质量。当在低资源甚至零资源场景下使用时,这些模型难以在不同的领域中推广,并且由于缺乏注释数据,性能急剧下降。不幸的是,标注更多的数据通常既昂贵又耗时,而且需要专业领域知识。此外,在语言变化迅速的领域(例如,社交媒体),带注释的数据可能很快就会过时,从而导致时间漂移问题。
缓解上述限制的一种常见方法是数据增强,其中自动生成的数据可以增加训练集的大小和多样性,同时导致模型性能提高。但是在NER环境下的数据增强仍然没有得到充分的研究。直接修改训练集中的单词的方法(例如,同义词替)和单词交换可能会在修改后无意中导致错误标记的实体。最近在低资源场景下的NER工作是有希望的An analysis of simple data augmentation for named entity recognition,但它仅限于相同的域设置,而且随着训练数据大小的减小,性能会急剧下降。
为了促进这一方向的研究,本文通过将来自高资源域的数据投影到低资源域来研究如何利用这些数据。根据本文的观察,不同领域的文本通常呈现出独特的模式(如风格、噪音、缩略语等)。如图1所示,Newswire领域的文本长而正式,而社交媒体领域的文本简短而嘈杂,经常出现许多语法错误、拼写错误和语言变化。
在这项工作中,本文假设即使文本模式在不同的领域是不同的,文本的语义仍然是可以转移的。此外,命名实体的显示方式有一些不变因素,本文假设模型可以从中学习。在这项工作中,本文提出了一种跨域的自动编码器模型,能够提取不同域中的文本模式,并学习域对齐的共享特征空间。通过在6个不同领域和10个领域对的两个数据集上的实验,本文对本文的数据增强方法进行了评估,结果表明,将数据从高资源领域转换到低资源领域是一种比简单地使用来自高资源领域的数据更有效的方法。本文还在NER任务的上下文中探索了针对域内和域外数据的低资源场景下的数据增强方法。
综上所述,本文主要做了以下几个方面的工作:
- 提出了一种新的神经网络结构,该结构能够学习文本模式,有效地将文本从高资源领域转换到低资源领域。
- 在6个不同的域和10个不同的域对的两个数据集上,系统地评估了本文提出的方法,并展示了跨域数据增强对于NER任务的有效性。
- 本文在低资源场景中经验地探索了本文的方法,并展示了本文的方法可以使低资源节点任务受益的情况
2 Related work
数据增强旨在通过略微修改现有数据的副本或从现有数据添加新生成的合成数据来增加训练数据的大小。近年来,它对于NLP任务变得更加实用,特别是在注释数据有限的低资源场景中。该方法无需采集新的数据,降低了标注成本,提高了模型性能。
以前的工作已经研究了token-level任务序列级任务的数据扩充。关于名词短语的数据扩充,An analysis of simple data augmentation for named entity recognition进行了一项研究,主要集中在简单的数据扩充方法上,如同义词替换(即用其同义词替换标记)和提及替换(即随机将提及替换为具有相同实体类型的另一个替换)。SeqMix: Augmenting Active Sequence Labeling via Sequence Mixup研究了序列混合(即在特征空间和标签空间混合符合条件的序列),以提高数据多样性和增强用于主动学习的序列标记。DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks提出了一种使用对抗性学习来生成高质量合成数据的新方法,该方法既适用于监督环境,也适用于半监督环境。
在跨域环境中,NER模型难以概括不同的流派。大多数现有的工作主要研究领域适应,其目的是适应来自源域的神经模型,以在来自目标领域的数据上取得更好的性能。Zero-Resource Cross-Domain Named Entity Recognition提出了一个零资源跨域框架来学习命名实体的一般表示。在本文的工作中,本文专注于跨域数据增强。该方法旨在将数据从高资源域映射到低资源域。通过学习不同领域数据的文本模式,本文提出的方法将数据从一个领域转换到另一个领域,并在低资源环境下使用生成的数据来提高模型的性能。
3 Proposed Method
在这项工作中,本文提出了一种新的神经结构,通过将文本从高资源域转换到低资源域来增加NER任务的数据。整个神经结构如图2所示。
本文考虑两个无与伦比的数据集:一个来自源域DsrcD_{src}Dsrc,另一个来自目标域DtgtD_{tgt}Dtgt 。本文首先通过在对应的单词之前插入每个实体标签来线性化所有句子。在每次迭代中,本文随机将DsrcD_{src}Dsrc 中的一个句子和DtgtD_{tgt}Dtgt 中的一个句子作为模型的输入。该模型从逐字去噪重构开始,然后进行去变换重构。
在去噪重建中,本文的目标是训练模型以无监督的方式学习基于输入所来自的域的压缩表示。本文通过洗牌、删除或掩饰一些单词来向每个输入句子注入噪音。编码器被训练来捕获文本语义,并学习使每个句子与其他领域的句子不同的模式。然后,本文通过最小化训练目标来训练解码器,该训练目标衡量的是它从相应域中的噪声版本重构每个句子的能力。在去变换重构中,目标是根据句子的文本语义将句子从一个领域转换到另一个领域。本文首先将每个句子从源/目标域转换到目标/源域,并将上一训练步骤中的模型作为输入。然后,编码器为转换后的句子生成潜在的表征。之后,与去噪重构不同的是,这里的解码器被训练来从对应域中的变换版本重构每个句子。除了去噪和去变换重构外,本文还训练了一个鉴别器来区分编码器产生的潜在向量是来自源域还是来自目标域。在这种情况下,编码器可以生成有意义的中间表示。否则,该模型将绕过域之间的中间映射步骤,并通过记忆而不是泛化来取代它。在接下来的几节中,本文将介绍本文的模型体系结构和训练算法的细节。
3.1 Data Pre-processing
遵循DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks的观点,本文对句子进行线性化,使模型能够学习词和标签的分布和关系。在这项工作中,本文使用了标准的BIO图式。给定单词序列w=w1,…wnw={w_1,…w_n}w=w1,…wn和标签序列l=l1,…lnl={l_1,…l_n}l=l1,…ln,本文首先通过将每个标签lil_ili 放在对应的单词wiw_iwi之前来线性化具有标签的单词。然后,本文生成一个新的句子x=l1,w1,l2,w2,…,ln,wnx={l_1,w_1,l_2,w_2,…,l_n,w_n}x=l1,w1,l2,w2,…,ln,wn。
3.2 Cross-domain Autoencoder
Word-level Robustness
本文的跨域自动编码器模型包括一个编码器Enc:X→z,它将输入序列从数据空间映射到潜在空间。以前的工作已经证明,输入扰动对于使用强大的序列网络的离散文本建模特别有用,因为它们鼓励保留潜在空间表示中的数据结构。在这项工作中,本文通过用三种不同的操作(参见表1)注入噪声来扰动每个输入句子,以确保相似的输入句子可以具有相似的潜在表征。
Denoising Reconstruction
去噪重建的神经结构如图2(A)所示。考虑一对不平行的句子:一个句子来自源域中的DsrcD_{src}Dsrc,另一个句子xtgtx_{tgt}xtgt 来自目标域中的DtgtD_{tgt}Dtgt 。该模型通过共享相同的编码器和解码器参数,同时使用不同的嵌入查找表来训练以重构每个句子。令牌嵌入器EmbsrcEmb_{src}Embsrc 和EmbtgtEmb_{tgt}Embtgt 保存对应域的查找表。该编码器是一种双向LSTM模型,以噪声线性化语句作为输入,返回隐含状态作为潜在向量。在每个解码步骤,解码器将来自前一步骤的当前单词和潜在向量作为输入。然后,它使用相应领域中的词汇将每个向量从潜在空间投射到词汇空间,并以附加注意预测下一个单词。
去噪重建的培训目标定义如下。这个训练目标的目的是迫使模型学习一个共享空间,在那里两个领域通过潜在向量对齐,并生成输入句子的压缩版本。
Detransforming Reconstruction
在去变换重构中,第一步是将每个句子从源/目标域转换到目标/源域。如图2(B)所示,给定来自源和目标域的一对序列xsrcx_{src}xsrc 和xtgtx_{tgt}xtgt,
本文首先通过应用来自前一训练步骤的模型Mθi−1M_{\theta}^{i-1}Mθi−1来将xsrcx_{src}xsrc映射到目标域中的x∼<em>tge\overset{\sim}{x}<em>{tge}x∼<em>tge,并且将x</em>tgtx</em>{tgt}x</em>tgt映射到源域中的x∼src\overset{\sim}{x}_{src}x∼src,该模型包括嵌入器、编码器和解码器。之后,本文将x∼<em>tgt\overset{\sim}{x}<em>{tgt}x∼<em>tgt和˜xsrc提供给编码器,并生成压缩的潜在表示z</em>tgtz</em>{tgt}z</em>tgt和zsrcz_{src}zsrc。则解码器将ztgtz_{tgt}ztgt映射到源域中的xsrcx_{src}xsrc,并将zsrcz_{src}zsrc映射到目标域中的xtgtx_{tgt}xtgt。
目标是学习不同结构域之间的映射,并根据其在相应结构域中的转换版本重建序列。去变形重建的培训目标如下所示:Domain Classification
对于领域分类,本文采用对抗性训练。本文使用编码器从不同的领域提取句子的文本模式。编码器生成输入的加噪声或变换版本的潜在表示,而鉴别器判断给定的潜在向量实际上是来自源域还是目标域。然后,编码器将改进其技术以愚弄鉴别器,最终捕获模式以将文本从源/目标域转换到目标/源域。首先在去噪重构中训练鉴别器,然后在去变换重构中对鉴别器进行微调,以区分源域句子和目标域句子。如图2所示,鉴别器DX从两个域获取输入,而不知道序列来自哪里。然后,该模型预测输入的相应领域。输入是潜在向量z,其中两个域已被映射到相同的空间。本文将这一任务描述为二进制分类任务。对抗性训练的训练目标描述如下:
Final Training Objective
最终培训目标定义为:
3.3 Training Algorithm
去噪重构和域分类分量。因此,在这项工作中,本文分两个阶段来训练本文的模型。在第一阶段,本文只对模型进行去噪重建和领域分类,以便它能够学习文本模式并生成每个领域数据的压缩表示。本文计算去噪重建的困惑度作为迭代选择最佳模型的标准。在第二阶段,本文结合去噪重构、去变换重构和领域分类对模型进行训练。目标是对齐来自不同域的数据的压缩表示,以便模型可以将数据从一个域投影到另一个域。本文计算去噪和去变换重构的困惑之和作为模型选择的标准。
3.4 Data Post-processing
本文使用跨域自动编码器模型生成合成数据,如第3.2节所述。本文将生成的数据从线性化格式转换为与gold数据相同的格式。本文使用以下规则对生成的数据进行后处理:1)移除不遵循标准BIO模式的序列;2)移除具有<UNKUNKUNK>或<MSKMSKMSK>标记的序列;3)移除没有任何实体标签的序列。
4 Experiments
在这一部分中,本文将介绍跨域映射实验和NER实验。在跨域映射实验中,分析了该模型的重构和生成能力。然后,本文测试了本文提出的方法,并评估了本文的模型在NER任务中生成的数据。数据集、实验设置和结果的详细信息如下所述。
4.1 Datasets
在本文的实验中,本文使用了两个数据集:Ontonotes 5.0数据集和时态Twitter数据集。本文选取了六个不同的英语领域的数据,包括广播对话(BC)、广播新闻(BN)、杂志(MZ)、新闻通讯社(NW)、网络数据(WB)和社交媒体(SM)。所有数据都使用以下18个实体标签进行注释:Person、NORP、FAC、ORG、GPE、LOC、PRODUCT、EVENT、Work_of_Art、Law、Language、Date、Time、Percent、Money、Quantity、Orial、Cardinal。下面本文将介绍如何对每个数据集进行预处理:
Ontonotes 5.0数据集
本文使用来自五个不同域的子集,包括广播会话(BC)、广播新闻(BN)、杂志(MZ)、新闻通讯社(NW)和网络数据(WB)。遵循Pradhan等人的观点。(2013),本文使用相同的拆分,并从每个数据集中删除重复序列。
Temporal Twitter Dataset
此数据集从社交媒体(SM)域收集。它包括从2014年到2019年的推文,每年有2000个样本。本文使用2014-2018年的数据作为训练集。在Rijhwani和PreitiucPietro(2020)的基础上,本文使用2019年的500个样本作为验证集,并使用另外1500个2019年的样本作为测试集。
4.2 Cross-domain Mapping
在这一部分中,本文描述了本文提出的跨域自动编码器模型的实验设置,并报告了评估结果。
Cross-domain Autoencoder
本文使用本文提出的跨域自动编码器模型(在第3.2节中描述)来生成合成数据。在本文的实验中,本文使用最常见的10K单词和5个特殊的标记来构建词汇表:<PADPADPAD>、<UNKUNKUNK>、<BOSBOSBOS>、<EOSEOSEOS>和<MSKMSKMSK>。本文使用双向LSTM层作为编码层,使用LSTM层作为解码层。对于鉴别器,本文使用线性层。
Results
对于跨域映射实验,本文考虑两个不同的域作为源域:NW和SM。自然语言中的语篇模式与其他领域中的语篇模式相似,而语篇模式中的语篇模式与其他领域中的语篇模式有很大的不同(参见关于领域相似性的附录B)。在表2中,本文报告了在10个不同结构域对上的跨域映射实验结果。
本文使用困惑作为衡量重建的指标。迷惑度越低,重建的准确性越高,重建质量越高。从实验结果中本文注意到,以自然语言为源域的平均困惑度低于以SM为源域的平均困惑度,这表明当文本模式可移植时,该模型可以很容易地重构域内和域外的句子。
4.3 Named Entity Recognition
在这里,本文描述了用于NER实验的序列标记模型的实验设置,并报告了评估结果。
Sequence Labeling Model
本文微调了Bert模型,以评估本文在NER任务上的跨域映射方法。BERT接受了来自一般领域的文本的掩蔽语言建模和下一句预测目标的预训练。本文使用ERT作为基本模型,因为它能够生成上下文词语表征,并在许多NLP任务中获得高性能。本文在BERT编码器的基础上增加了一个线性层,将每个令牌划分为预定义的实体类型。超参数在附录A中描述。
Results
为了评估生成数据的质量,本文在NER任务上进行了10个不同领域对的实验。对于每个域对,本文考虑了三个实验:
- 源域:基于来自源域的数据训练模型作为下界;
- 目标域:基于来自目标域的数据训练模型作为上界;
- Gen:基于生成的数据结合来自源域的数据训练模型。
基于这些结果,本文观察到,当文本在源域和目标域的模式非常接近(以NW为源域)时,改进相当有限,甚至没有改善。在大多数以NW为源域的实验中,F1值的提高都不到1%。在NW→BC的实验中,本文可以看到当将生成的数据与源域的数据组合作为训练数据时,性能会下降。本文怀疑这是因为本文模型中的鉴别器不能区分潜在向量来自哪个领域。因此,模型不能生成有意义的中间表示,从而导致较低的性能。然而,当模式不相似(SM作为源域)时,GEN可以比下界高出18.93%的F1分数,这表明模型对来自每个域的文本模式有很好的理解,并且生成的数据的文本模式与来自目标域的数据比来自源域的数据更相似。
Comparison with Previous Work
为了与以往的神经网络数据扩充方法进行比较,本文将来自源域的训练数据进行扩充(即生成合成数据并与原始训练数据组合)作为训练集。验证集和测试集来自目标域。本文首先在不使用任何数据增强技术的情况下建立基线Exp 2.0基线(无增强)。然后本文考虑7种不同的方法,包括1)Exp 2.1键盘增强:基于键盘距离随机替换字符,2)Exp 2.2交换增强:随机交换每个单词内的字符,3)Exp 2.3删除增强:随机删除字符,4)Exp 2.4拼写增强:通过拼写错误单词词典替换单词,5)Exp 2.5同义词替换:用WordNet(Miller,1995)同义词替换单词,6)Exp 2.6上下文替换:用BERT上下文词嵌入替换单词,以及7)Exp 2.7 Daga等人的Exp 2.7 Daga。(2020)。
在表4中,本文通过报告F1分数将本文的方法与以前的NER任务的数据增强方法进行了比较。本文考虑了两个不同的实验:NW→SM和SM→NW。本文将来自源域的数据作为训练数据进行扩充。验证数据和测试数据来自目标域。基于研究结果,本文观察到:1)相对于传统的数据扩充(Exp 2.1~Exp 2.6),改进是相当有限的。其中只有3种方法在NW、→SM和SM→NW上都能超过基线,性能增益在0.34%~1%F1分之间;2)数据增强技术在训练样本数量较少的情况下是有效的。例如,在SM→NW中,当仅使用1000个训练样本时,所有方法都可以超过基线。然而,当使用4K训练样本时,只有三个样本可以超过基线;3)简单地学习每个领域的文本模式(Exp 2.7)并不总是能产生良好的性能。当训练数据的大小相当有限时,该模型难以学习文本模式,因此无法达到良好的性能;4)将文本从源域转换到目标域是非常有效的,因为在两次实验中,它的平均性能分别比基线高8.7%和10.1%。
5. 启示
- 本文从数据增强的角度提升few-shot的性能,实验做了很多,对于实验部分的分析写的特别好。使用数据增强方法做其他的任务的炼丹师们可以好好的看一下这篇论文。
- 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。