Vault:面向机器阅读理解的可变统一长文本表示
-
VAULT: VAriable Unified Long Text Representation for Machine Reading Comprehension
Vault:面向机器阅读理解的可变统一长文本表示
Abstract
对于长passage的阅读理解来说,MRC需要复杂的模型结构有效的对question和passage的表示进行建模,因此模型需要大量的算力资源。本文提出了一个轻量级、并行高效的段落表示法模型:Vault。该模型基于长文档输入的上下文表示,使用一种新的基于高斯分布的目标进行训练,该目标==密切关注接近==ground-truth的部分正确instance。在NQ(基于维基百科)上进行评估,达到了的当前SOTA的性能,但速度快了16倍。
1 Introduction
当前的MRC都是集中在较短语境下的,但是许多数据集专注于较长语境,因此对于长语境的数据集,512的序列长度限制了它们的发展。对于长语境zheng等人 2020 Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension提出了图神经网络的方法对文档层次结构进行建模,这种方法虽然创建了文本的强表示,但是有一个明显的缺点:图神经网络的GPU等并行硬件上的效率低下,导致推理效率低下。基于此,本文提出了一个更轻量级和并行效率高的基于长上下文表示的段落表示来为问题提供段落答案。具体来说:在PLM上(本文使用Longformer: The Long-Document Transformer)用每个段落的轻量级表示建模更长的上下文,为了给模型提供相对于文本的段落位置的概念,本文引入了可使用特殊标记(makeup)的位置感知段落表示(PAPR),并将它们作为有效的段落分类的输入,这种方法允许在==文本中编码paragraph-level的位置,并教导模型将每个段落的信息输入到这些token的隐藏输出中==,可以利用这些tokens来确定答案驻留在哪个段落中。然后,从这个识别的段落预测答案跨度。
一般的MRC方法从上下文中提取答案span时,仅使用ground-truth开始和结束的span位置作为训练目标,并将所有其他位置视为不正确的instance。然而与ground-truth重叠的span应该也认为是正确的,Li 2020Data-dependent Gaussian Prior Objective for Language Generation提出了一种新的基于同义词先验分布的机器翻译优化准则,在此基础上,作者做出了改进,具体来说:将答案区间的起始位置和结束位置视为类高斯分布,而不是单点分布,利用统计距离对模型进行优化(利用位置感知段落表示和高斯先验优化对否定instance进行长文本建模)。作者将这个模型称为:Vault(VAriable Unified Long Text Presentation),因为它可以在任何位置处理可变数量和长度的段落。
贡献:
1. 提出了一种新颖、有效、简单的段落表示方法。 2. 在训练过程中,**本文引入了软标签来利用来自接近ground-truth的局部上下文的信息**,这对于MRC来说是新颖的。 3. 模型在NQ上提供了与SOTA系统相似的性能,同时速度提高了16倍,并且还有效地适应了一个新的领域:TechQA。
2 The Approach
基于较长上下文的段落表示,在Longformer上训练位置感知段落表示,再基于高斯优化训练目标(考虑接近ground-truth位置的部分积分,而不仅仅是关注一个ground-truth)
2.1 ABase “Paragraph” Predictor Model
本文采用一个大窗口的PLM:LongFormer(突破了BERT512token的限制,最大输入长度达到4096)进行长上下文编码。
2.1.1 Position-aware Paragraph Representation (PAPR)
许多非结构化文本(如Wikipedia页面)具有相对标准的显示某些相关信息的方式(例如,生日通常在第一段中,而配偶的名字在“个人生活”段落中),本文通过在每个段落的开头用特殊的原子标记makeup段落([ paragraph=i ][\ \mathrm{paragraph=i}\ ][ paragraph=i ])来==向基本模型提供它正在阅读的文本的哪一部分的表示,==以指示该段落在文本中的位置(在表格和列表中添加类似的标签)。再此输入表示形式下,本文使用==由特殊段落标记输出的嵌入==直接执行长答案分类。形式上来说,对于每个段落li∈Pl_i \in Pli∈P,其中PPP是文本中的所有段落,其对应的标记token为hiph_i^phip,段落答案a的logit值为:
从标准[CLS]token获得额外的document-piece表示,以对不包含段落答案的document-pieces进行建模。在给定上下文c的情况下,选择段落的概率被计算为候选段落的logit(具有答案span)的softmax,并且不包含答案logit:
对段落进行padding,确保batch统一。首先在所有候选段落中选择具有最高logit值的段落候选,然后使用指针网络在选定的段落答案候选中提取span答案。2.1.2 Gaussian Prior Optimization (GPO)高斯先验优化
最大似然估计方法提高了ground-truth位置的概率,而抑制了所有其他位置的概率。然而,文本假设,对于所有这些负面的情况,靠近ground-truth的位置应该比距离更远的位置得到更高的信任,因为提取的答案将与ground-truth部分重叠。==本文构造了在ground-truth位置具有最高概率的分布==,并根据到相应ground-truth真实位置的距离来指数的丢弃该概率。具体来说,对于ysy_sys处的ground-truth的开始和结束位置,其中s∈start,ends \in {start,end}s∈start,end,本文使用高斯分布N(ys,σ)\mathcal{N}(y_s,\sigma)N(ys,σ)进行丢弃,其中平均值是位置ysy_sys,方差σ\sigmaσ是超参数。把每个位置yyy的高斯分布的概率密度φ(y∣ys,σ)\varphi(y|y_s,\sigma)φ(y∣ys,σ)作为相应位置的logit,然后使用带有温度的softmax重新定标logits以获得位置ysy_sys处的ground-truth的类高斯分布q(y∣y∧s)q(y|\overset{\wedge}{y}_s)q(y∣y∧s):
在构造分布q(y∣ys)q(y|y_s)q(y∣ys)和模型预测ps(y∣c)p_s(y|c)ps(y∣c)时,增加了KL散度,可以指导模型遵循部分信用的类高斯分布:
3 Experiments
3.1 Result on NQ
在NQ上训练Vault,分别将段落和span答案预测为NQ的**LA(长答案)和SA(短答案)**并与RoBERTADMRoBERTA_{DM}RoBERTADM(SOTA文档模型(DM)的RoBERTa的变体)进行比较。尽管在本文的表中包括了Longformer DM基线是公平的,但是资源有限,因此作者没有这么做,而是采用与其相似的RoBERTa。通过去除GPO和PAPR进行消融试验,展示对vault的影响。
不带GPO和PAPR的基本LM(实验中为Longform)是以先预测SA然后选择封闭LA的方式实现。可以观察到,Vault和ROBERTADM提供了类似的F1性能。然而,当涉及到解码时间时,可以发现Vault解码速度比ROBERTADM快16倍以上。此外,还在消融实验中看到,两种增强使F1指标都增加了多个点,但却牺牲了一些解码时间。特别注意到,Longformer的F1表现并不能与Vault相媲美。结论是,vault提供了F1和解码时间的最佳平衡,因为它有效地与F1捆绑在一起(使用ROBERTADM),并且解码速度仅比最快的型号慢约20分钟。
3.2 Domain Adaptation: Results on TechQA
由于vault已被证明对NQ有效,作者在一个新的域TechQA上对其进行评估。本文将其与用相同的超参数训练的Roberta基本模型进行比较;除了使用11个epochs而不是20个epochs。另外选择了Base而不是Large(如TechQA基线所使用的那样)以提供公平的比较,因为在使用Vault进行实验时使用的是base PLM。同样,使用Roberta而不是Bert,因为它更接近LongFormer。在NQ上已经建立了vault的运行时有效性之后,在这里将重点放在F1指标上,包括“has answer”(HA)F1。本文将HA F1视为主要的度量,因为在这项工作中正在探索段落答案提取,并且(如前所述)TechQA中的答案比其他数据集要长得多。作者相信HA F1的改善,至少部分来自GPO。
可以看到vault模型提供了0.7 F1和8.5HA F1的改进(表示有答案);因此显示了作者方法的有效性。特别是,这种将段落结构归类的方法在存在非空答案的情况下提供了很大的性能提升(HA F1)。
启示
- 对于长文本可以采用PAPR的方式先计算出段落答案
- 高斯先验优化可以软化ground-truth周围的上下文信息
为什么快了16倍?
-