Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags
    1. Home
    2. 175****1239
    • Profile
    • Following 0
    • Followers 1
    • Topics 62
    • Posts 65
    • Best 42
    • Groups 0

    175****1239

    @175****1239

    50
    Reputation
    12
    Profile views
    65
    Posts
    1
    Followers
    0
    Following
    Joined Last Online
    Website blog.csdn.net/Jeaksun?spm=1011.2124.3001.5343 Location 乌鲁木齐 Age 27

    175****1239 Unfollow Follow

    Best posts made by 175****1239

    • tmux的高级用法

      1 关于创建会话

      • 创建会话0

        tmux new -s 0
        
      • 恢复会话0

        tmux at -t 0
        
      • 列出所有会话

        tmux ls
        
      • 关闭会话0

        tmux kill-session -t 0
        

      2 窗口操作

      • 水平分割窗口(水平分屏)

        先按下Ctrl + B,再按%
        
      • 垂直分割窗口

        先按下Ctrl + B,再按"
        
      • 光标在不同窗口间切换

        先按下Ctrl + B,再按o
        
      • 切换会话终端

        先按下Ctrl + B,再按s
        
      • 在当前窗口的基础上再创建一个窗口

        先按下Ctrl + B,再按c
        
        
      • 暂时退出当前会话

        先按下Ctrl + B,再按d
        
        
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • RE: 【有奖话题NO.13】 天临四年,肝论文的炼丹师们,大家还好吗?

      我建议大家写论文之前,要仔细看文献,做好笔记,不要用自己的文字写笔记,一定要看懂文章的逻辑。

      主要看到是他的表达方式,而不是模型怎样怎样好,方法怎么样。

      posted in 有奖话题
      175****1239
      175****1239
    • Revisiting the Negative Data of Distantly Supervised Relation Extraction

      66453272-4c51-499a-9824-278c73d165e8-image.png

      1. 摘要

      • 无监督的关系抽取,存在两大问题:噪声标签、训练数据不平衡
      • 以往:研究集中在减少错误标签的关系(假阳性),很少研究由于知识库的不完备性导致的缺失关系(假阴性)
      • 本文的贡献:
        – 首先对负面数据进行分析
        – 接下来,将关系抽取表述为一个正的无标签学习任务,缓解假阴性问题
        – 提出模型RERE进行关系检测,然后进行subject和object提取

      2. 问题分析

      关系级别假阴性:抽取到的关系,在预定义的关系集中不存在
      实体级别假阴性:S4、S5表示实体级别假阴性4f595f7f-02e9-4bec-befd-a72dca5a7473-image.png
      阶级分布不平衡:负标签的数量远远大于正面标签的数量

      2.1 解决假阴性问题

      由百度百科标记的NYT数据集中的三元组为88253,由Wikidata标记的为58135。可以看到,由于知识库的不完备性,只用一个KB来标记,就会存在大量的FN,特别是当多个关系出现在一句中时,即使是人工标注。

      2.2解决负面标签

      采用先抽取关系,再抽取主体和客体的范式

      3.模型

      83f33f83-71fa-4e6f-bee0-d2c4a421b8f8-image.png

      1. 输入:[CLS],cic_ici​,[SEP]
      2. 经过BERT生成token表示矩阵:Hrc∈RN×dH_{rc} \in R^{N \times d}Hrc​∈RN×d
      3. 将BERT输出的第一个token [CLS] 的编码向量 hrc0h_{rc}^{0}hrc0​ 作为句子表示,关系分类的最终输出为:yrc=σWhrc0+by_{rc}= \sigma{Wh^0_{rc}+b}yrc​=σWhrc0​+b
      4. 取关系分类的输出yrcy_{rc}yrc​(onehot),使用每个检测到的关系(yrcy_{rc}yrc​中1的个数)来生成query
      5. 构造MRC格式:[CLS],qiq_iqi​,[SEP],cic_ici​,[SEP]
      6. 将上述输入到BERT中,得到token表示矩阵Hee∈RN×dH_{ee} \in R^{N\times d}Hee​∈RN×d
      7. 实体抽取的第K个输出指针由yeek=σWHee+by_{ee}^k=\sigma{WH_{ee}+b}yeek​=σWHee​+b

      4. Experiments

      b7114e41-7f7b-4fda-ba63-4ccbe6c5473e-image.png

      5. 启示

      1. 先抽取关系再抽取实体的范式,可以应用到监督领域
      2. 可以对模型进一步提取特征
      3. 增加两者之间的关联性
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

      b7ad440d-6bea-4893-8a5c-bc327c9cc4a2-image.png

      亮点

      引入ConceptNet作为额外的知识事实来帮助构建图,通过GCN 和层次注意力。图构建关系,GCN提取特征,层注意力来计算相关性分数进行排序
      fa33ee93-3c79-4b29-9cbc-e1f7feb0a38f-image.png

      方法:

      1. 如何构建图
      2. 基于图如何去实现推理过程

      图的构建

      首先提取QA中的concept,本文采用N-gram的方式,通过采用停用词好词性还原方法去除噪音。
      基于路径搜索的方法找到路径不超过4的路径,这样初步的图就构建完成了。然后使用预训练好的embedding来表示这个图的结点以及关系。
      通过cos来计算两个结点间的关系,进行剪枝
      d1c6a852-c45c-4d36-8e46-147e02d1f7b3-image.png

      推理过程

      通过两层GCN编码

      #启示

      1. 引入外部知识库的方法可以进行领域迁移,代码部分是重点。
      2. 构建图的方法可以迁移到其他领域。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • Inducing Target-Specific Latent Structures for Aspect Sentiment Classification

      在这里插入图片描述

      Inducing Target-Specific Latent Structures for Aspect Sentiment Classification

      面向体感分类的特定目标潜在结构诱导

      Abstract

      将依存树与图结合,提出一种门控机制,动态的组合来自自注意力网络学习的词依存关系图和潜在(latent)图的信息

      Model

      在这里插入图片描述

      • 使用两个句子编码器:BiLSTM、BERT
      • 提出了三种潜在图的学习方法
        – 自注意力
        – 稀疏自注意力
        – 应kuma
      • 将依存图、latent 图通过门控GCN进行编码

      启发

      三种潜在图的构建方法和门控GCN是一个亮点
      缺点就是没有代码参考,自己又复现不了,如果有大佬能够复现,跪求联系

      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 基于跨度的联合实体和Tfransformer预训练的关系提取

      ​​​6b8c4f88-2c08-4a4b-b7ff-dae9f10d4e79-image.png
       Abstract
      本文介绍了一种基于span的联合实体和关系提取的注意力模型。主要贡献是在BERT嵌入上的轻量级推理,能够进行实体识别和过滤,以及使用本地化的,无标记的上下文表示的关系分类。

      该模型使用强句内负样本进行训练,这些负样本在一次BERT中被有效的提取,这有助于对句子中的所有span进行搜索,在消融试验中,本文证明了预训练、负采样和局部环境的好处。

      Instruction
      利用transformer作为backbone,基于span的方法:任何标注子序列都构成一个潜在的实体,并且任何一对span之间都可能有关系。本文使用本地上下文表示,而不是用特定的标记,并在单一的BERT中抽取中抽取负面样本。来自同一句子的负面样本产生的训练高效并有效,而足够多数量的强负面样本似乎是关键。局部化的上下文表示对长句子有益。

      model
      5417d2bf-c040-47d2-9509-8706d068a445-image.png

      1.  句子中所有span都被分类为实体类型,如三个example span   (红色所示)。

      1. 归类为非实体的span  被过滤。

      2. 将所有剩余的成对实体()与它们的上下文(实体之间的span 黄色)组合到一起,并分类为关系。

      span分类
      将上下文通过BERT,通过span classifier 的向量有三部分:1)实体包含对的token向量(红色)2)宽度嵌入(蓝色)3)特殊标记CLS(绿色)。

      宽度嵌入是在训练中学习到的嵌入矩阵,即实体的宽度为k+1,表示实

      中包含k+1个token,那么实体的宽度嵌入就会表示为以k+1为下标。

      首先选择一个span,然后使用max-pooling,将其与宽度嵌入拼接起来,如果span有三个向量,那么width embedding选择width embedding的第三个向量,而蓝色的width embedding是通过反向传播学到的。

      输入到span classifier的最终向量最后经过一个softmax层得到最终的结果。

      span filtering
      将softmax分类后得到none类的过滤掉。并不对所有的实体和关系进行搜索,而是将实体和关系控制在10个token以内。

      relation classification
      关系分类器的输入包括两部分:两个候选实体(红色和蓝色的拼接);整个句子的表示c(CLS绿色)不太适合长句子对于多关系的表示,所以摒弃c。采用局部语义信息来进行关系分类,本文任务头实体的结束到尾实体的开始这一段的span看做关系(黄色),随着这样存在问题,但是效果较好。考虑到反向关系的存在,所以将关系分类的输入为:

      通过sigmod设置阈值,当大于指定阈值的时候任务关系成立。

      负采样
      对于实体识别,采用一定量的随机不含实体的span作为负样本。

      对于关系识别,采用一定量的真正的实体但是实体之间没有关系作为负样本。为什么要这样?

      Result
      65f0c6ca-16f0-4f26-b9e0-8ff7661e0cdb-image.png

      尽管在使用LSTM或注意机制检测长距离关系方面取得了进展,但随着context的增加而产生的噪声仍然是一个挑战。通过使用本地化上下文,即实体候选之间的上下文,关系分类器可以聚焦于通常对关系类型最具区别性的句子部分。为了评估这一效果,本文将本地化上下文与使用整个句子的另外两个上下文表示进行了比较: 
      4f8feef8-d1ad-4ff0-ad5a-1f35f47980a9-image.png
      full context:不是对实体候选之间的上下文执行最大池化,而是对句子中的所有标记执行最大池化。

      CLS token:就像在实体量词(图1,绿色)中一样,我们使用一个特殊的量词令牌作为上下文,它能够关注整个句子。

      在CoNLL04开发集(图3)上评估了这三个选项:当使用带有本地化上下文的SpERT时,该模型的F1得分达到71.0%,显著高于整个句子的最大池化(65.8%)和使用分类器标记(63.9%)。
      81717a59-5ea0-4946-b3a8-368aa157dbb8-image.png

      图3还显示了关于语句长度的结果:本文将CoNLL04开发集分为四个不同的部分,即<20、20−34、35−50和>50标记的语句。

      显然,本地化的语境对所有句子的长度都会产生类似或更好的结果,特别是对于非常长的句子:在这里,它达到了57.3%的F1得分,而当使用其他选项时,性能急剧下降到44.9/38.5%。

      4a245616-7ee4-4a2d-9bab-b80bb95b9803-image.png
      表4(中间)显示了一个具有多个实体的长句的例子:通过使用局部上下文,该模型正确地预测了三个定位关系,而依赖完整的上下文会导致许多错误的肯定关系,例如(“Jackson”,Located-in,“Colo”)。或(“怀俄语”,定位于“麦卡伦”)。这表明,将模型引导到输入句子的相关部分是至关重要的。

      启示

      1. 负采样为什么会提升性能?两个span之间的token作为关系,为什么?试验做的很好,但是没有把故事讲明白。

      2. 计算每个token之间的span,这时间复杂度恐怕有点大啊!

      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 面向阅读理解的双向注意力流

      图片

      Bidirectional Attention Flow for Machine Comprehension

      Abstract

      机器阅读理解MC,即根据上下文段落回答问题,要求对上下文和问题之前的复杂交互进行建模。最近,注意力机制成功应用在MC上,特别是这些模型使用attention对context的部分内容进行专注,并归纳成特定大小的向量。本文引入BiDAF(双线注意力流网络),这是一个多阶段的多层次的处理过程,它以不同的粒度级别分别表示上下文,并使用双向注意力流机制获得query-aware context表示。

      1.Instruction

      机器阅读理解在最近几年取得了令人振奋的结果,进步的关键因素之一是神经注意机制的 使用,这使系统能够在上下文段落或图像内聚焦于与回答问题最相关的目标区域。

      在以前的研究中,注意机制通常具有以下一个或多个特征。

      1. 首先,计算的注意力权重通常被用来通过将上下文总结为固定大小的向量,一次来从上下文中提取最相关的信息来回答问题。

      2. 其次,在文本领域中,注意力通常是时间动态的,由此当前时间步长的关注权重是前一时间步长的关注向量的函数。

      3. 它们通常是单向的,其中query关注上下文段落或图像。

      本文的注意力网络,是一个分层的多阶段体系结构,用于在不同的粒度级别上对上下文段落的表示进行建模。如 figure 1 所示。

      图片

      该网络包括:字符级、词级和上下文嵌入,并使用双向注意力流获得query-aware context表示。

      本文的注意力机制对以前流行的注意力范式进行了以下改进:

      1. 首先,该注意力层不是用来将上下文段落总结为固定大小的向量。相反,将为每个时间步长计算注意力,并允许每个时间步长的附属向量与先前层的表示一起流向后续建模型,这减少了早期汇总造成的信息损失。

      2. 其次,本文使用了一种无记忆注意机制。也就是说,当通过时间迭代地计算注意力时,每个时间步长的关注度仅是当前时间步长的query和context段落的函数,而不是直接依赖于上一个时间步长的关注度。这种机制迫使关注层专注于学习query和context之间的注意力,并使建模层专注于学习可识别query的context表示内的交互。

      2. Model

      2.1 字符嵌入层

      设和分别表示输入的context段落和query的单词。

      本文使用CNN获得每个单词的字符级嵌入,并对CNN的输出执行max-pooled,以获得每个单词的固定大小。

      2.2 单词嵌入

      使用预训练的词向量glove获得每个单词的固定单词的嵌入。

      字符级嵌入和单词嵌入经过拼接后会被送到一个两层的highway network。

      残差网络的输出是两个d维向量的序列,对于context的表示向量为

      ,query的表示向量为。

      2.3 上下文嵌入

      将字符级嵌入和单词特征拼接后经过highway network的输出作为LSTM的输入,增加单词之间的交互,从context词向量X中得到,从query词向量Q中得到。

      2.4 Attention Flow Layer

      注意力流负责连接和融合来自不同上下文和query词的信息。该层的输入是上下文 和query 的上下文向量表示。输出是上下文词G的query-aware context表示,以及来自前一层的上下文嵌入。

      在这一层中,从两个方向计算关注度:

      1. from context to query

      2. from query to context

      下面讨论的两个方向的attention都是从上下文和query 的上下文嵌入之间的共享相似性矩阵中导出的,其中表示第t个context和第j个query单词之间的相似度矩阵。

      其中是的第t列向量,同样如此,。

      2.4.1 Context-to-query Attention

      Context-to-query(C2Q)的注意表示哪些查询词与每个上下文词最相关。

      设表示由第t个上下文词对查询单词的关注度权重,对于所有。

      关注度权重由计算,随后每个关注查询向量是。

      因此,是包含整个上下文的关注查询向量的2d×T矩阵。

      2.4.2 Query-to-context Attention

      Query-to-context(Q2C)注意表示哪些上下文词与查询词中的一个最相似,因此对回答查询至关重要。

      我们通过来获得上下文词的关注权重,其中最大函数()是跨列执行的。

      则参加的上下文向量是。该向量指示上下文中最重要的单词相对于查询的加权和。在整个柱子上平铺T次,从而得到到。

      最后,将上下文嵌入和注意力向量组合在一起以产生G,其中每个列向量可以被认为是每个上下文词的查询感知表示。我们用G来定义:

      其中,是第t列向量(对应于第t个上下文词),是融合其(三个)输入向量的可训练向量函数,是函数的输出维度。虽然函数可以是任意可训练的神经网络,如多层感知器,但在实验中,(即)仍然显示出良好的性能。

      2.5. Modeling Layer

      建模层的输入是G,它对上下文词的查询感知表示进行编码。建模层的输出捕获了以查询为条件的上下文词之间的交互。这与上下文嵌入层不同,上下文嵌入层独立于查询捕获上下文词之间的交互。我们使用两层双向LSTM,每个方向的输出大小为d。因此,我们得到一个矩阵,该矩阵被传递到输出层以预测答案。预期M的每个列向量包含关于整个上下文段落和查询的关于该单词的上下文信息。

      3. Experiments

      3.1 Result

      图片

      4. 启示

      1. 最牛的一篇阅读理解paper之一。

      2. 对于一对的输入序列都可以用双向注意力流,我愿称之为YYDS。

      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。

      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 基于新标记方案的实体和关系联合提取

      Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

      基于新标记方案的实体和关系联合提取

      Abstract

      本文提出了一种新的标注方案,可以将联合抽取任务转化为标注问题。然后,基于这种标注方法,作者研究了不同的端到端模型来直接提升实体及其关系,而不需要单独识别实体和关系。

      1. Instruction

      实体和关系的联合提取是从非结构化文本中同时检测实体提及并识别其语义关系,如下图所示:

      传统的方法以流水线方式抽取这一任务,即先抽取实体,然后识别它们之间的关系。这种分离的框架是任务更容易处理,每个组件都可以更灵活。但它忽略了这两个子任务之间的相关性,每个子任务都是一个独立的模型。实体识别的结果可能会影响到关系分类的性能,并造成错误传播。

      与流水线模型不同,联合学习框架使用单一模型提取实体和关系。可以有效地集成实体和关系的信息,并在这项任务中取得了较好的效果。在本文中,主要研究由两个实体以及这两个实体之间的一个关系组成的三元组的提取。因此,作者直接对三元组建模,而不是分别提取实体和关系。基于这种动机,作者提出了一种结合端到端模型的标签方案来解决这一问题。本文设计了一种新颖的标签,它包含了实体及其所持有的关系的信息。

      本文还修改了解码方法,增加了偏置损耗,使其更适合这种特殊的标注方案。

      本文的贡献:

      1. 提出了一种新的联合抽取实体和关系的标注方案,可以很容易地将抽取问题转化为标注问题。
      2. 基于这种方案,本文研究了不同类型的端到端模型来解决这个问题。
      3. 针对新型标签的特点,提出了一种端到端的偏置损耗模型,它可以加强相关实体之间的联系。

      2. Mothod

      2.1 The Tagging Scheme

      如上图所示:CP是country-president的简称,cf是company-founder的简称。

      每个单词都被分配一个标签,用于提取结果BIOES。关系类型信息是从预先定义的关系集R中获得的,entity在关系角色的信息由数字1和2表示。提取的结果由三元组表示:(Entity1,RelationType,Entity2)。因此,标签总数为Nt=2×4×∣R∣+1N_t=2\times 4\times |R| + 1Nt​=2×4×∣R∣+1。

      上图的标注方法,输入句子包含两个三元组(United States, Country-President, Trump),(Apple Inc, Company-Founder, Steven Paul Jobs)。其中United,States,Trump,Apple,Inc,Steven,Paul和Jobs等词都与最终提取的结果有关。

      特殊标签进行标注,例如United这个词是United States实体的第一个词,与Country-President关系有关,所以它的标签时B-CP-1,对应于United States的另一个相同关系类型Company=Founder。

      2.2 The End-to-End Model

      2.2.1 Bi-LSTM编码器

      一个单词序列可以表示为W=w1,…,wnW={w_1,…,w_n}W=w1​,…,wn​

      2.2.2 LSTM解码器


      最终的softmax层根据标签预测向量TtT_tTt​计算归一化实体标签概率:

      2.2.3 The Bias Objective Function

      目标函数定义为:

      |D|是训练集的大小,LjL_jLj​是句子xjx_jxj​的长度,yt(j)y_t^{(j)}yt(j)​是单词xjx_jxj​中词t的标注。I(O)I(O)I(O)表示一个门控函数,以区分标注O与可指示结果的相关标注间的损失,定义如下:

      3. Experiments

      与经典方法不同,该方法可以在不知道实体类型的情况下提取三元组。换句话说,没有使用实体类型的标签来训练模型,因此不需要在评估中考虑实体类型。当一个三元组的关系类型和两个对应实体的头部偏移量都正确时,该三元组被认为是正确的。

      3.1 Results

      4. 启示

      1. 采用一种新的标注方法,即将关系类型标注到实体标签中,比较新颖。
      2. 达到了49.5的F1值,在当年分数还是比较高的。
      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 基于LSTM的序列和树结构端到端关系提取

      qSFzRK.png

      End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures

      基于LSTM的序列和树结构端到端关系提取

      1 Abstract

      本文通过在双向sequential LSTM-RNNs上堆叠双向树形结构的LSTM-RNNs来捕获单词序列和依存树子结构信息。基于共享参数的方法进行训练,在训练期间检测实体,并通过实体预训练和计划抽样在关系抽取中使用实体信息。

      cnncode

      1 Introduction

      本文提出一种新的端到端模型来提取词序列和依存关系树结构上实体之间的关系。通过使用双向顺序和双向树形结构的LSTM-RNNs进行实体和关系的联合建模,首先检测实体,然后使用单个递增解码的神经网络结构提取检测到的实体之间的关系,本文在训练中加入了两个增强:实体预训练和计划抽样。实体预训练用于预先训练实体模型;计划抽样是以一定的概率将预测标签替换为gold label。这种方法==缓解了训练早期阶段低性能实体检测的问题==,并允许实体信息进一步帮助下游任务。

      2 Model

      2.1 OVerview

      本文使用LSTM-RNNs设计模型,同时表示单词序列和依存关系树结构,并在此基础上进行实体关系的端到端提取。该模型主要由三部分组成:词嵌入层、基于词序列的LSTM-RNN层(序列层)和基于依存关系子树的LSTM-RNNs层(依存关系层)。在解码中,在序列层进行实体检测,在依赖层实现关系分类,每个基于子树的LSTM-RNN对应于两个被检测实体之间的一个关系候选。依赖层堆叠在序列层之上,==因此嵌入层和序列层由实体检测和关系分类共享,共享的参数受实体和关系标签的影响==。

      qSFxG6.png

      2.2 Embedding Layer

      将词words、词性part-of-speech POS、依存关系dependency types、实体标签entity labels分别映射为:
      v(w)∈R1×nw;v§∈R1×np;vd∈R1×nd;ve∈R1×nev^{(w)}\in R^{1\times n_w};v^{§}\in R^{1\times n_p};v^{d}\in R^{1\times n_d};v^{e}\in R^{1\times n_e}v(w)∈R1×nw​;v§∈R1×np​;vd∈R1×nd​;ve∈R1×ne​

      2.3 Sequence Layer

      图一左下所示,将嵌入层的词嵌入和POS嵌入作为输入,即输入为:
      xt=[vt(w),vt§]x_t=[v_t^{(w)},v_t^{§}]xt​=[vt(w)​,vt§​]
      这一层主要的任务是实体检测,首先利用LSTM进行序列编码,得到两个方向的输出:
      st=[h→t;h←t]s_t=[\overset{\rightarrow}{h}_t; \overset{\leftarrow}{h}_t]st​=[h→t​;h←t​]

      2.4 Entity Detection

      将实体识别任务其看做一项序列标注任务,即实体标签采用BILOU的标注方式,实体类别在实体标签之后,利用两个全连接层实现实体识别:
      ht(e)=tanh(Weh[st;vt−1(e)]+b(eh));yt=softmax(Weyhte+bey)h_t^{(e)}=tanh(W^{e_h}[s_t;v_{t-1}^{(e)}]+b^{(e_h)});y_t=softmax(W^{e_y}h_t^e+b^{e_y})ht(e)​=tanh(Weh​[st​;vt−1(e)​]+b(eh​));yt​=softmax(Wey​hte​+bey​)
      预测每个实体时,输入为LSTM的输出和上一时刻word的预测出的标签的嵌入vt−1ev_{t-1}^evt−1e​,从而考虑到标签上的依赖性。

      2.5 Dependency Layer

      依存关系层表示依存树中一对目标词之间的关系,主要关注依存关系树中一对目标词之间的对短距离,如图1最下方的路径就是最短路径。本文使用双向树形结构的LSTM-RNNs表示候选关系(通过捕获目标词对周围的依存结构来表示候选关系)。

      这种树形结构的LSTM-RNNs不是对序列建模,而是利用树结构建模,一个句子形成树形结构可以分为两类:句法短语解析树(依存树dependency tree)和依赖树(短语句法树parse tree)。对于句法解析树采用Child-Sum Tree-SLTM;对于依赖树采用N-ary Tree-LSTMs。

      • 依存树
        • 没有词组这个层次,每个结点都与句子中的单词相对应,能够直接处理句子中词与词之间的关系,便于标注词性
        • qSxxUK.jpg
      • 短语句法树
        • 由各组成部分的意义以及用以结合它们的规则来决定的
        • 如果想要得到一个句子或短语的向量表示,可以先找到它每一组成部分的意思,然后将其融合的父节点作为规则,计算出相邻K个部分的相似度,接着组织相似度高的s个结点的父节点作为其父节点,最后递归构造出句法树。
        • <img src=“https://s1.ax1x.com/2022/03/16/qSxvE6.jpg” alt=“qSxvE6.jpg” style=“zoom:60%;” />

      显然依存树的孩子结点是无序的,而且对于每一个父节点,它所拥有的孩子结点是不限制个数的。可以共享同类型孩子节点的权重矩阵,并且允许孩子节点的数目可变。

      • Child-Sum Tree-LSTMs
        • 叶子结点一般是序列的输入(词向量)
        • 内部节点是LSTM单元
        • 存储器单元的更新取决于父节点的孩子结点的状态(可以尽可能多的接受来自多个孩子结点的信息)
      • N-ary Tree-LSTMs
        • Child-Sum的更新取决于子节点的隐藏状态之和(输入为第j个序列词xjx_jxj​,所有孩子结点的隐藏状态之和h∼j\overset{\sim}{h}_jh∼j​)
        • N-ary是对每一个孩子结点的隐藏状态分别计算然后求和(输入:第j个序列次xjx_jxj​,N个孩子结点hjh_jhj​)
        • N-ary能更细粒度的表达信息,Child-Sum直接简单粗暴求和

      LSTM:
      it=σ(Wixt+Uiht−1+bi)i_t = \sigma(W^ix_t+U^ih_{t-1}+b^i)it​=σ(Wixt​+Uiht−1​+bi)
      ft=σ(Wfxt+Ufht−1+bf)f_t = \sigma(W^fx_t+U^fh_{t-1}+b^f)ft​=σ(Wfxt​+Ufht−1​+bf)
      ot=σ(Woxt+Uoht−1+bo)o_t = \sigma(W^ox_t+U^oh_{t-1}+b^o)ot​=σ(Woxt​+Uoht−1​+bo)
      ut=tanh(Wuxt+Uuht−1+bu)u_t = tanh(W^ux_t+U^uh_{t-1}+b^u)ut​=tanh(Wuxt​+Uuht−1​+bu)
      ct=it⊙ut+ft⊙ct−1c_t = i_t\odot u_t + f_t\odot c_{t-1}ct​=it​⊙ut​+ft​⊙ct−1​
      ht=ot⊙tanh(ct)h_t = o_t\odot tanh(c_t)ht​=ot​⊙tanh(ct​)

      Child-Sum Tree-LSTMs:
      it=σ(Wixt+∑l∈CtUm(l)ihtl+bi)i_t = \sigma(W^ix_t+\sum_{l\in C_t}U_{m(l)}^ih_{tl}+b^i)it​=σ(Wixt​+∑l∈Ct​​Um(l)i​htl​+bi)
      ftk=σ(Wfxt+∑l∈CtUm(k)m(l)fhtl+bf)f_{tk} = \sigma(W^fx_t+\sum_{l\in C_t}U^f_{m(k)m(l)}h_{tl}+b^f)ftk​=σ(Wfxt​+∑l∈Ct​​Um(k)m(l)f​htl​+bf)
      ot=σ(Woxt+∑l∈CtUm(l)ohtl+bo)o_t = \sigma(W^ox_t+\sum_{l\in C_t}U^o_{m(l)}h_{tl}+b^o)ot​=σ(Woxt​+∑l∈Ct​​Um(l)o​htl​+bo)
      ut=tanh(Wuxt+∑l∈CtUm(l)uhtl+bu)u_t = tanh(W^ux_t+\sum_{l\in C_t}U^u_{m(l)}h_{tl}+b^u)ut​=tanh(Wuxt​+∑l∈Ct​​Um(l)u​htl​+bu)
      ct=it⊙ut+ft⊙ctlc_t = i_t\odot u_t + f_t\odot c_{tl}ct​=it​⊙ut​+ft​⊙ctl​
      ht=ot⊙tanh(ct)h_t = o_t\odot tanh(c_t)ht​=ot​⊙tanh(ct​)

      2.6 Stacking Sequence and Dependency Layers

      将依赖层堆叠在序列层的顶部,以便将单词序列和依赖树结构信息合并到输出中。该层的输入:sequence layer对应时刻的隐藏状态、依存关系嵌入和实体嵌入
      xt=[st;vtd;vte]x_t=[s_t;v_t^d;v_t^e]xt​=[st​;vtd​;vte​]

      2.7 Relation Classification

      译码过程中,使用被检测实体的最后一个单词的所有可能组合,对于每个候选关系,本文实现了与关系候选词对P之间的路径相对应的依赖层dpd_pdp​,神经网络接收到由依赖树层构造的关系候选向量,并预测其关系符号,如果检测的实体是错误或没有关系时,视为一对负关系。本文通过类型和方向来表示关系标签。

      在预测实体关系时,tree-LSTM会有三个输出:
      dp=[↑hpA;↓hp1;↓hp2]d_p = [\uparrow h_{p_A};\downarrow h_{p_1};\downarrow h_{p_2}]dp​=[↑hpA​​;↓hp1​​;↓hp2​​]
      ↑hpA\uparrow h_{p_A}↑hpA​​表示自下而上的LSTM-RNNs中顶部LSTM单元的隐藏状态向量(代表目标单词对p的最近公共祖先,两个实体向上传播到根结点的输出);↓hp1,↓hp2\downarrow h_{p_1},\downarrow h_{p_2}↓hp1​​,↓hp2​​是自上而下的两个LSTM单元的隐藏状态(LSTM-RNNs)

      关系分类和实体检测相似,使用具有nhrn_{hr}nhr​维度的隐藏状态层hrh^rhr和softmax:
      hpr=tanh(Wrhdp+brh);yp=softmax(Wryhtr+bry)h_p^r = tanh(W^{r_h}d_p + b^{r_h}); y_p = softmax(W^{r_y}h_t^r + b^{r_y})hpr​=tanh(Wrh​dp​+brh​);yp​=softmax(Wry​htr​+bry​)
      由于本模型使用words表示实体,因此不能充分利用实体信息,为了缓解这个问题,本文将序列层到输入dpd_pdp​再到关系分类的**==每个实体==的隐藏状态向量的平均值**拼接到dpd_pdp​上:
      dp’=[dp;1∣Ip1∣∑i∈Ip1si;1∣Ip2∣∑i∈Ip2si]d_p^{’} = [d_p;\frac{1}{|I_{p_1}|}\sum_{i\in I_{p_1}}s_i;\frac{1}{|I_{p_2}|}\sum_{i\in I_{p_2}}s_i]dp’​=[dp​;∣Ip1​​∣1​∑i∈Ip1​​​si​;∣Ip2​​∣1​∑i∈Ip2​​​si​]
      其中Ip1、Ip2I_{p_1}、I_{p_2}Ip1​​、Ip2​​表示第一个实体和第二个实体中的单词索引的集合

      3 Results

      3.1 Data

      ACE2005定义了7种粗粒度实体类型和6种粗粒度的关系类型。

      ACE2004定义了相同的七个粗粒度实体类型,7个粗粒度关系类型,采用交叉验证设置。

      SemEval-2010 Task 8定义了名词性名词之间的9种关系类型,以及两个名词之间没有这些关系时的第十种关系类型,将第十种关系定义为负关系类型。

      3.2 Experiment Settings

      • 使用Stanford 神经依赖解析器和原始的Stanford依赖项对文本进行解析
      • 将嵌入维度nw=200,np=nd=ne=25n_w=200,n_p=n_d=ne=25nw​=200,np​=nd​=ne=25,中间层维度为100
      • 在ACE05上进行调参,在ACE04上直接采用ACE05的最佳参数
      • 对于SemEval-2010 Task8省略了实体检测和标签嵌入

      3.3 End-to-end Relation Extraction Results

      qSkSxO.png

      qSkCse.png

      qSk9MD.png

      4 启示

      1. 第一篇联合实体关系抽取论文
      2. 采用依赖树的方式会忽略标签之间的长依赖关系
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • Knowledge Graph Augmented Network Towards Multiview Representation Learning for Aspect-based Sentiment Analysis

      def3add4-3837-408b-935e-3e432899688a-image.png

      Knowledge Graph Augmented Network Towards Multiview Representation Learning for Aspect-based Sentiment Analysis

      基于知识图的增广网络多视点表示学习面向方面的情感分析

      亮点

      • 引入了外部知识,通过外部知识和context之间进行互补信息(将外部知识显示的与context和句法结合起来)
        – 从基于context、句法、knowledge等三个角度捕捉情感特征

      model

      bb501ec0-fb0d-455d-bb99-8b844235e7e9-image.png

      共有三个分支

      • context和syntax通过预训练的词嵌入表示提取特征
        – context编码:通过BiLSTM
        – syntax编码:首先建立句法依赖,得到句子中的邻接矩阵,再次通过两层GCN进行
        327307a1-59a3-477d-88de-5575e2f0e4e1-image.png
        – knowledge0base representations:引入wordnet的知识图作为外部知识,通过语义匹配方法学习知识嵌入。知识图太过于庞大,通过软注意力机制学习特定方面词的知识表示。
        Hierarchical Fusion
        采用分层融合模块,以局部到全局的方式协同融合这些表示
        31dce7ed-5f2f-4be9-a9be-8eda3be6c01e-image.png

      启发:

      1 可以将wordnet知识库融入到NLP的其他任务
      2 wordnet融入代码作者没有给出,到底如何编码,也是一个难点(如果有大佬懂得知识图嵌入的实现,跪求交流)

      posted in 语音识别与语义处理领域
      175****1239
      175****1239

    Latest posts made by 175****1239

    • 用于关系抽取的BERT门控多窗口注意力网络

      BERT gated multi-window attention network for relation extraction

      用于关系抽取的BERT门控多窗口注意力网络

      Abstract

      实体关系抽取旨在识别句子中实体对之间的语义关系,是问答系统、语义搜索等后续任务的重要技术支持。现有的关系抽取模型主要依靠神经网络来提取句子的语义信息,忽略了重要短语信息在关系抽取中的关键作用。针对这一问题,提出了一种基于BERT门多窗口注意力网络的关系抽取模型(BERT-GMAN)。该模型首先使用BERT提取句子的语义表示特征及其约束信息。其次,构建关键短语提取网络,获取多粒度短语信息,并采用基于元素的最大汇集算法进行关键短语特征提取。再次,采用分类特征感知网络对关键短语特征进行进一步过滤和全局感知,形成关系分类的整体特征。最后,结合Softmax分类器进行关系抽取。在Semval 2010 Task8数据集上的实验结果表明,该模型的性能比现有方法有了进一步的提高,F1-Score达到了90.25%。

      1 Instruction

      随着互联网的快速发展,如何从海量的非结构化文本数据中有效地提取结构化信息已成为工业界和学术界的研究热点。关系抽取是从非结构化文本源中提取结构化信息的重要环节,其目的是从自然语言文本中提取显性或隐含的语义信息,以自动识别实体e1和e2之间的语义关系。此外,它还是构建知识图(KG)的中间环节,可以为下游的自然语言处理任务提供技术支持,如知识库构建、自动文本摘要、自动问答。如表1中的例子所示,实体"signal"(e2)是实体"transmitter"(e1)的effect,因此e1和e2之间是"Cause-Effect(e1,e2)"的关系。

      在早期,传统的关系抽取方法主要集中在基于规则的方法和传统的基于机器学习的方法,存在准确率低和人工经验有限的问题。为了克服这些问题,基于神经网络的方法成为近年来的研究热点。这些方法使用神经网络自动挖掘句子中的隐含特征,而不需要设计复杂的特征工程,在关系提取效果方面完全超过了传统方法。因此,递归神经网络(RNN)和卷积神经网络(CNN)模型已成为当前关系抽取任务的主要模型。

      目前,基于神经网络的关系抽取方法大多侧重于模型的创新,而忽略了同一个词在不同句子中具有不同意义的问题。例如,“The tests are generated randomly from a bank of questions developed for each module.” and "We minimized excessive flows that cause flooding bank erosion and habitat loss."的"bank"一词在这两个句子中有不同的意思。

      然而,在使用神经网络进行关系提取时,使用的是由word2vec预训练形成的静态单词向量作为输入,同一单词的语义信息不能根据不同句子中的上下文上下文动态调整,从而限制了对实体上下文信息的表示能力。而Google提出的双向编码转换器表示(BERT)模型能够捕捉单词之间的关联特征,并能根据单词的上下文信息动态调整预先训练的单词向量,有效地解决了单词的多义性问题。因此,为了解决句子中词的多义性问题对关系抽取结果的影响,本文采用BERT模型对句子中的词进行编码,以准确捕捉同一词在不同语境中的意义。

      另一方面,在表1所示句子的情况下,仅依靠实体“signal”和“transmitter”的语义信息很难识别实体对之间的“Cause-Effect(e1,e2)”关系。因此,必须考虑句子的全局信息。研究人员使用CNN和LSTM等神经网络对句子的全局上下文进行编码,同时引入实体位置和潜在实体类型来增强句子中实体的上下文信息。虽然这些方法可以有效地在句子层面上对上下文进行建模,但句子中与关系分类无关的词会作为噪声信息影响分类结果。对表1中的句子进行分析可以看出,实体“signal”和“transmitter”包含的与关系范畴相关的语义信息较少,而实体“signal”和“transmitter”之间的关系类型可以从“transmitter”中推断出来。因此,本文使用最短依存路径来提取实体对之间的骨干信息,并构建了关键短语提取网络,使得关系提取模型更加关注关键字信息,如”emits“。

      为了对现有方法进行改进,提出了一种BERT门控多窗口注意力网络模型。该模型保留了句子中实体对之间的主干信息,构造了约束信息来指导对原始句子的约束,并使用BERT对句子及其约束信息进行编码,形成动态词向量,既增强了实体上下文信息的语义表示,又减少了噪声信息的干扰。此外,该模型还构建了一个关键短语提取网络来捕获句子中的关键短语信息,以丰富句子的语义信息。具体而言,该模型由四个部分组成:词语语义表示网络、关键短语提取网络、分类特征感知网络和关系预测输出网络。

      • 词的语义表示网络使用BERT对原始序列及其约束信息进行编码,构建词的动态语义表示特征。

      • 关键短语提取网络采用门限多窗口CNN来获取句子中的多粒度短语特征,并使用基于元素的最大汇集算法(EWMP)过滤出关键词短语特征。

      • 分类特征感知网络使用自我注意机制和BiLSTM-注意到屏幕和全局感知关键短语特征来形成分类的整体特征。

      • 关系预测输出网络使用全连接层和Softmax进行分类处理。本文的主要贡献如下:

      1. 本文使用最短依存路径(SDP)对句子进行裁剪。该模型在不考虑实体间依赖关系的情况下,保留实体间的主干信息,构造语句约束信息,以减少噪声信息的干扰,有利于模型捕捉实体间的重要信息。

      2. 利用语料库对句子及其约束信息进行编码,形成具有约束意义的动态词向量,构建关键短语提取网络,获取实体上下文的关键短语特征,增强了实体上下文的语义表示能力。

      3. 提出了一种全局门控机制(GGM),用于将短语上下文信息传递给当前短语表示,以增强短语本身的信息表示。

      4. 在标准的SemEval-2010任务8数据集上的实验结果表明,本文的模型获得了最先进的结果,F1-Score达到了90.25%。

      本文的其余部分结构如下。第2节概述了相关工作。在第三节中,介绍了模型的总体架构和技术细节。第四节给出了实验数据集、超参数设置以及对实验结果的分析。第五节分析了模型预测结果中的误差。第六部分对本文的工作进行了总结和展望。

      2. Related work

      目前,关系提取技术分为三种:基于规则的方法、基于传统机器学习的方法和基于神经网络的方法。基于规则的方法在很大程度上依赖于手动设计规则来进行关系提取,但设计规则既耗时又费力。传统的基于机器学习的方法包括基于特征的方法和基于核的方法。基于特征的方法通过预定义的特征模板从训练集中提取实体及其上下文信息,构造用于训练实体关系分类器的特征向量,并使用训练的分类器来识别测试集中的实体关系类别。基于核的方法是构造句子中关系实例的表示,并通过构造核函数来计算不同关系实例之间的相似度以进行关系提取。虽然传统的机器学习方法比基于规则的方法更通用和高效,但特征和核函数的设计更困难和费力。神经网络能够自动捕捉句子中的潜在特征,缓解了传统方法中人工设计特征耗时费力的问题。近年来,研究人员开始尝试使用神经网络来处理关系提取任务,并通过构建不同的神经网络模型来提高关系提取的性能。现有的主流神经网络关系抽取方法主要有基于RNN的方法、基于CNN的方法和基于注意机制的方法。

      CNN擅长提取关系实例的局部特征,在句子相对较短的数据集上表现优于RNN。Relation extraction: Perspective from convolutional neural networks提出了一种多窗口CNN模型结构,该模型利用不同大小的卷积核提取不同粒度实体上下文的局部特征。与单窗口CNN关系提取模型相比,该模型的性能有了很大的提高。Wang等人。Relation classification via multi-level attention cnns提出了一种多关注度的CNN关系抽取模型,该模型能够关注上下文中词语之间以及标签与句子之间的关联,突出句子成分对关系抽取的贡献。Structural block driven enhanced convolutional neural representation for relation extraction提出了一种新颖的结构化块驱动的CNN结构。该模型使用依赖分析得到父子节点之间的基本跨度,并利用多尺度卷积神经网络对语义标签进行编码,增强了选择性顺序标注,有效地提高了关系抽取模型的性能和效率。Talla at semeval-2018 task 7: Hybrid loss optimization for relation classification using convolutional neural networks提出了一种主动学习扩展模块用于关系提取,将领域专家知识与CNN相结合进行特征提取。实验结果证明了该方法的有效性。

      注意机制根据句子上下文信息捕捉词之间的关联特征,突出重要词对分类任务的贡献。Attention-based bidirectional long short-term memory networks for relation classification提出了一种基于BiLSTM的关系抽取注意机制。该方法使用BiLSTM对实体上下文语义信息进行编码,并利用注意力机制计算每个词对句子的贡献权重,得到句子向量进行分类。Bidirectional lstm with attention mechanism and convolutional layer for text classification提出了一种具有卷积层次的BiLSTM注意网络结构,该网络结构能够捕捉句子的局部特征和全局语义信息,在一定程度上有助于理解文本上下文信息。Attention-based lstm with filter mechanism for entity relation classification将BiLSTM与注意力机制相结合,获取句子的浅层局部信息,并通过基于注意力机制的过滤层来增强句子中的可用信息。该方法在关系抽取性能上有一定的提高。

      3. Methodology

      在这一部分中,本文介绍了一种基于BERT门控多窗口注意力网络的关系抽取模型。该模型主要包括以下四个部分:词义表示网络、关键短语提取网络、分类特征感知网络和关系预测输出网络。模型的总体架构如图1所示。本文中使用的所有符号都汇总在表2中。


      3.1. Word semantic representation network

      词语义表示网络使用SDP对句子进行剪枝,保留实体之间的骨干信息形成句子约束信息,并使用BERT对句子及其约束信息进行编码,形成句子的词语义信息表示。

      3.1.1. Constraint information约束信息

      句子中与关系抽取无关的冗余词往往会影响关系抽取模型的性能。为了减少冗余词对关系抽取结果的干扰,本文提出了约束信息。约束信息是通过使用SDP策略对语句进行剪枝而形成的,并且只保留实体之间的骨干信息。就拿这句话来说,“The [trans-mitter]e1 emits a constant radio [signal]e2 to crea.”例如,Stanford NLP中的Stanford Parser工具被用来对这个句子执行依存分析。

      生成的分析树结构如图2所示,其中"emits"为依赖分析树的根节点,目标实体为"Transmitter"和"Signal",目标实体与根节点之间的SDP为:

      然后去除对SDP的依赖关系,形成约束信息“transmitter emits signal”。约束信息只包含实体对之间最重要的信息,在引导对原句的约束时,可以减少原句中冗余信息的干扰。原句和约束信息的比较如表3所示。

      3.1.2. Word semantic information representation

      为了增强实体上下文信息的语义表示,本文使用预先训练好的BERT语言模型对句子及其约束信息进行编码,形成词的语义信息表示。预训练的BERT语言模型是多层双向转换器编码器,其使用掩码语言模型(MLM)通过预训练双向转换器来生成深层双向语言表示。BERT的输入一般包括标记嵌入、位置嵌入和分段嵌入,其中token嵌入是包含单词信息的单词向量,位置嵌入用于指示单词的位置,分段嵌入用于区分输入中的多个句子。上述三个嵌入是通过从大规模训练语料库中学习生成的。该模型根据输入的句子语境信息对三种嵌入方式进行动态微调。BERT模型通常需要在输入句子的开头添加‘’[CLS]‘’标签,而‘’[CLS]‘’的最终输出代表句子信息。当输入文本包含多个句子时,‘[SEP]“用作句子之间的分隔符标记。

      为了使BERT能够获取两个实体的位置信息,本文在实体e1和e2的起始和结束位置分别添加了‘’[E11]和‘’[E12]和‘’[E21]“和‘’[E22]‘位置标记,用’‘[SEP]’分割句子及其约束信息,并在句子开头添加‘’[CLS]‘’来获得句子信息。

      例如,句子的“The transmitter emits a constant radio signal to crea.“两个目标实体是‘’transmitter‘’和“signal”,约束信息是”transmitter emits signal“,加上各种标签后的句子S是:"[CLS] The [E11] transmitter [E12] emits a constant radio [E21] signal [E22] to crea [SEP] transmitter emits signal [SEP].“
      如图3所示,使用预训练的BERT模型对句子S进行编码以形成语义表示矩阵:

      其中,n是句子的长度,Lm是句子的最大长度,Xi是第i个单词的单词向量,dw表示BERT模型输出的单词向量维度,xix_ixi​到xi+hx_{i+h}xi+h​ 是实体e1的单词嵌入,xjx_jxj​到xj+1x_{j+1}xj+1​ 是实体e2的单词嵌入,xpx_pxp​ 到xp+qx_{p+q}xp+q​ 是约束信息的单词嵌入。为了获得实体向量和约束信息向量,通过使用包含tanh激活函数和全连通层的平均池来处理实体词向量和约束信息词向量,形成实体向量表示Ve1V_{e1}Ve1​;Ve2V_{e2}Ve2​ 和约束信息向量表示VSDPV_{SDP}VSDP​,如等式所示。(1)-(3):

      在语义表示矩阵X中,x1是"[CLS]"的向量,x1由tanh激活函数和全连通层编码以形成句子向量V0∈RdwV_0\in R^{d_w}V0​∈Rdw​,如等式4所示:

      3.2. Key phrases extraction network 关键词抽取网咯

      为了充分捕获句子中的关键短语特征,本文构建了关键短语提取网络,如图4所示。

      该网络使用不同窗口大小的CNN来捕获句子的多粒度短语特征,通过全局选通机制增强不同粒度短语本身的语义信息,并使用基于元素的最大汇集过滤来形成关键词组特征。

      一个句子中的每个词都可以组成一个短语,这个词在它的前面或后面。为了捕捉单词前后两个方向上的重要短语信息,将过滤器设置为奇数,并将窗口大小设置为1,3,5 × d_w 数据仓库用于提取不同粒度的短语特征。为了保证不同卷积核卷积后的语句长度与输入语句长度相同,采用相同的填充策略填充输入语句。假设输入的语义表示矩阵为X,提取第i个词的短语特征,如下式5所示:

      其中cik∈Rdcc_i^k\in R^{d_c}cik​∈Rdc​是卷积核的窗口大小(k取1、3、5的值),dc表示滤波器数。输入语义表示矩阵X经卷积后生成短语特征矩阵Ck=[c1k,…,cnk]C^k=[c_1^k,…,c_n^k]Ck=[c1k​,…,cnk​],如公式(6)所示。

      不同大小的过滤器可以用来捕获不同粒度的短语特征。为了增强每个粒度短语本身的语义信息,本文提出了全局门控机制,如图5所示。

      该机制的具体实现如等式所示。(7)-(11):

      其中ci,jk∈R1×1表示短语特征矩阵c^k_{i,j}\in R^{1\times 1}表示短语特征矩阵ci,jk​∈R1×1表示短语特征矩阵c_k$ 中第i个短语特征向量cikc_i^kcik​ 的第j维值;mk∈Rdcm^k\in R^{d_c}mk∈Rdc​是短语特征全局信息,⊙\odot⊙表示矩阵的点积运算,Gk∈Rn×dcG^k\in R^{n\times d_c}Gk∈Rn×dc​是选通信息,Tk∈Rn×dcT^k\in R^{n\times d_c}Tk∈Rn×dc​表示全局选通机制的输出。

      具体地说,全局选通机制使用等式7,8平均汇集短语特征CkC^kCk,提取包含短语上下文语义信息的短语全局特征mkm^kmk 。公式9,10用于计算短语全局信息mkm^kmk 和短语特征向量ckc^kck 之间的相关性,并且全局选通信息GkG^kGk 是通过利用激励函数σ的切换作用保留与当前短语相关的全局信息而忘记与当前短语无关的全局信息而形成的。由于GkG^kGk 是从短语全局信息mkm^kmk 计算产生的,使得GkG^kGk可以捕获mkm^kmk 中的信息。通过使用公式(11)通过对全局选通信息GkG^kGk和短语特征向量ckc^kck进行点积运算,可以将全局选通信息GkG^kGk中包含的短语全局信息传递到当前短语表示中,从而达到利用短语上下文信息增强短语本身的语义表达信息的目的。

      为了从多粒度短语特征中过滤出关键短语信息,本文采用基于元素的最大汇集策略对多粒度短语特征进行过滤,如图6所示,通过逐点选取不同粒度短语特征对应特征维度上的最大值形成关键短语特征T’,具体操作如等式(12)-(14)所示:

      其中T’∈Rn×dc,ti,jk∈R1×1T’\in R^{n\times d_c},t^k_{i,j}\in R^{1\times 1}T’∈Rn×dc​,ti,jk​∈R1×1 表示第i个短语特征在TkT^kTk 中的第j个维度的值。

      3.3. Classification feature perception network

      分类特征感知网络使用自我注意机制和BiLSTM-注意对关键短语信息进行过滤和全局感知,形成关系分类的整体特征。

      3.3.1. Self-Attention

      为了增强关键短语特征T’中的重要短语信息对关系提取结果的影响,利用transformer中的自我注意机制对关键短语特征T’进行进一步过滤。自我注意机制主要由两部分组成:点积型注意和多头型注意。按比例计算的点积关注度主要包括Q、K和V,其计算方法如下式15所示:

      多头注意将注意权重映射到多个并行子空间进行权重学习,并对子空间中学习到的信息进行拼接,以关注不同子空间中的相关权重信息。多头注意的具体操作在EQ 16, 17中有所展示:

      关键词特征T’=[t1’,…,tn’]T’=[t_1’,…,t_n’]T’=[t1​’,…,tn​’]是使用自注意过滤得到具有不同权重信息的关联短语特征Z=MultiHead(T’,T’,T’),z∈Rn×dcZ=MultiHead(T’,T’,T’),z\in R^{n\times d_c}Z=MultiHead(T’,T’,T’),z∈Rn×dc​。

      3.3.2. BiLSTM-Attention

      为了捕捉关键短语特征的全局感知,使用BiLSTM对关键短语特征的上下文信息进行编码。与传统的RNN相比,BiLSTM解决了梯度消失的问题,并能在正向和反向对特征序列进行建模,如图7所示。

      每个LSTM单元主要包含四个部分,在时间步长l,LSTM的方程如下:

      首先是忘记门fif_ifi​ 的计算;LSTM使用忘记门来选择在先前时刻丢弃哪些信息,如公式18所示:

      hi−1h_{i−1}hi−1​ 是前一状态的输出。下一步是计算输入门rir_iri​ 和候选信息gig_igi​ 。输入门从当前时刻的候选信息中选择需要存储在存储单元cic_ici​ 中的信息,如等式19:

      其中,tanh和σ表示非线性激发函数。接下来是存储单元cic_ici​ 的计算,该存储单元cic_ici​ 在上下文中存储重要信息,如公式所示(21):

      这可以从方程21中看出fif_ifi​ 丢弃来自先前时刻的一些单元信息,并将新信息添加到当前单元。最后一部分是当前时刻的输出hih_ihi​ 的计算,其取决于当前时刻的输出gate oio_ioi​ 和存储单元cic_ici​,如等式22、23:

      如图7所示,关键短语特征T’=[t1’,…,tn’]T’=[t_1’,…,t_n’]T’=[t1​’,…,tn​’]作为BiLSTM的输入,用BiLSTM对关键短语特征上下文进行编码后,第i个词隐含层的输出如公式24所示:

      关键短语特征T’由BiLSTM编码,并且所生成的短语上下文被表示为H=[h1,…,hn]∈Rn×dhH=[h_1,…,h_n]\in R^{n\times d_h}H=[h1​,…,hn​]∈Rn×dh​

      为了形成用于关系分类的句子表征,本文采用了句子级注意机制,并在句子级注意的基础上增加了实体特征。关联性短语特征Z和短语语境表征H是由句子表征P<em>1,P</em>2∈RhdP^<em>_1,P^</em>_2\in R^{d}_hP<em>1​,P</em>2​∈Rhd​和H的句级注意机制形成的,如等式(25)-(27)

      其中zi∈Rdcz_i\in R^{d_c}zi​∈Rdc​是Z中的第i个向量,hi∈Rdhh_i\in R^{d_h}hi​∈Rdh​是短语上下文表示H中的第i个向量,dw,dc,dhd_w,d_c,d_hdw​,dc​,dh​具有相同的大小。

      3.4. Relationship prediction output network

      将句子向量V0V_0V0​ 、实体向量Ve1V_{e1}Ve1​ 和Ve2V_{e2}Ve2​ 、约束信息向量VSDPV_{SDP}VSDP​ 与句子表示P1<em>,P</em>2∈RcdP_1^<em>,P^</em>_2\in R^d_cP1<​em>,P</em>2​∈Rcd​融合,形成用于关系分类的语义向量Q,如等式28

      在得到用于关系分类的语义向量Q之后,本文使用完全连通层和Softmax函数来预测关系,并生成每个关系类的概率分布p∧(y∣s)\overset{\wedge}{p}(y|s)p∧​(y∣s),如公式Q(29):

      其中,y表示目标关系类别,S是输入语句,θ表示网络中的可学习参数,|R|表示关系类别的数量。

      在本文中,该模型使用交叉熵作为损失函数。为了减少过拟合度,提高网络泛化性能,该模型采用L2正则化对网络参数进行惩罚。网络的目标函数如方程(30):

      其中|b|是训练数据的大小,yiy_iyi​表示期望的输出,k表示L2正则化的超参数,h是模型中的所有可训练参数,其基于训练自动更新。

      4. Experiments

      4.1. Datasets and evaluation metrics

      为了有效地评估本文提出的模型,使用语义评估会议SemEval的数据集SemEval-2010 Task8进行了训练和测试。该数据集包含8,000个训练样本和2,717个测试样本。SemEval2010任务8数据集包含十个类别,特别是以下关系类别:Cause-Effect (C-E), Instrument-Agency(I-A), Product-Producer (P-P), Content-Container (C–C), Entity-Origin (E-O), Entity-Destination (E-D), Component-Whole (C-W),Member-Collection (M-C), Message-Topic (M-T), and Other。每个类别的训练样本和测试样本的分布如图8所示。

      在官方评估框架中,上述类别中排名前九的关系类别具有方向性,其他关系类别没有方向性。本文使用SemEval-2010任务8的官方评估指标来计算所有类别(除其他类别外)的宏观平均F1分数,以评估该模型的有效性。

      4.2. Hyper-parameter settings

      本文模型的主要超参数设置如表4所示。

      为了更好地将本文的模型与ERT相结合,本文将模型的每一层都设置为与BERT的输出维度相同的维度。

      4.3. Experimental results

      本文以BERT模型为基线,提出了一种BERT-GMAN关系抽取模型。该模型提取句子中的关键短语信息,以增强实体的上下文表示,同时减少句子中冗余信息的干扰。为了验证模型的有效性,在SemEval-2010任务8数据集上与当前最先进的9个模型进行了对比实验。对比实验的模型主要分为四类:基于RNN的模型、基于CNN的模型和基于预训练的模型,实验结果如表5所示。

      从表5可以看出,本文的模型BERT-GMAN在SemEval-2010任务8数据集上取得了更好的性能,宏观平均F1-Score达到了90.25%。与BLSTM+BTLST M+ATT、多注意力CNN和BERTEM+MTB相比,本文的模型分别将F1-Score提高了3.15%、2.25%和0.75%。结果表明,该模型引入了实体对之间的骨干信息,提取了句子中的关键短语信息,并利用全局选通机制增强了短语本身的语义信息表达能力,丰富了实体上下文的语义信息表达能力,提高了关系抽取的准确性。

      4.4. Analysis and discussion

      4.4.1. Effectiveness analysis of constraint information

      在词约束语义表示网络中,本文使用SDP来提取句子的主干信息作为约束信息。为了考察约束信息是否能对关系抽取模型产生积极影响,在SemEval-2010 Task8数据集上进行了两组对比实验:

      • 添加约束信息的BERT模型与BERT-SDP模型的对比实验;
      • 去除约束信息后的BERT-GMAN模型的对比实验。

      实验结果如表6和图9(A)-(B)所示。

      从表6可以看出,BERT-SDP模型的F1-分数比BERT模型提高了0.59%,BERT-GMAN的F1-分数比没有SDP的BERT-GMAN提高了1.18%。这是因为约束信息降低了句子中冗余信息的权重,帮助模型捕捉到实体对之间的重要信息,提高了实体关系抽取的准确性。

      从图9(A)和(B)中可以观察到,BERT-SDP模型和BERT-GMAN模型的F1得分曲线都优于它们的比较模型。BERT-GMAN的F1-Score曲线收敛更快,改善更显着。结果表明,约束信息对提高关系抽取的性能是有效的。

      4.4.2. Experimental analysis of phrase combinations with different granularity

      在3.2节中,本文介绍了提出的关键短语提取网络结构,该网络结构用于提取多粒度短语特征,并对其进行过滤以形成关键短语特征。不同的过滤器可以提取不同粒度的短语特征,选择合适的短语特征组合可以有效提高模型的关系提取性能。在这项工作中,设置了四种不同的卷积核组合来计算BERT-GMAN模型的宏观平均F1得分。在SemEval-2010任务8数据集上的实验结果如表7所示。

      从表7可以看出,组合(D)的F1得分高于其他三个组合。这是因为不同粒度的短语特征所包含的语义信息不同。通过选取多个不同粒度的短语特征进行筛选形成的关键短语特征包含了更丰富的语义信息。增强了实体的上下文表达,提高了关系抽取的准确性。在使用两个不同卷积核的组合中,(A)组合的F1得分高于(B)和©组合。这是因为大多数实体依赖于关于单词本身的信息
      以及关于由它们之前和之后的单词组成的关键短语的信息来确定实体关系类
      。

      4.4.3. Effectiveness analysis of different components

      该模型分别引入了约束信息、多窗口注意力网络(MAN)和基于ERT的全局门控机制。为了调查每个成分对关系提取模型F1得分的贡献,在数据集SemEval-2010 Task8上进行了对比实验,结果如表8和图10所示。

      从表8可以看出,在BERT模型上引入约束信息后,BERT-SDP的F1-得分达到89.36%,说明约束信息可以减少噪声信息对关系分类的负面影响。加入基于BERT-SDP的MAN,BERT-SDP-MAN的F1-得分达到89.72%。这是因为人工获取的关键短语特征及其上下文信息可以丰富实体上下文语义的表达能力,提高关系抽取模型的性能。在BERT-SDP-MAN的基础上引入GGM,BERT-GMAN的F1-得分达到90.25%。结果表明,GGM能够将短语全局信息转化为当前短语表示,并利用短语上下文信息增强短语本身的语义表达信息,从而进一步提高关系抽取模型的性能。

      从图10可以看出,图中所示的所有四种方法的F1得分都随着模型迭代次数的增加而增加,但它们都有一定的波动。在SemEval-2010任务8数据集上,与BERT、BERT-SDP和BERT-SDP-MAN相比,BERT-GMAN具有最好的F1得分和最小的波动。实验结果表明,该方法能有效提高关系抽取的性能。

      4.4.4. Categorical comparison of BERT-GMAN and BERT

      为了验证BERT-GMAN模型的有效性,本文比较了BERT-GMAN和BERT每个关系类别的准确率、召回率和F1-分数。比较结果如表9和图11所示。

      从表9可以看出,与BERT模型相比,BERT-GMAN模型的各个实体关系类别的精度都有了显著的提高。“仪器-机构”和“会员-收藏”的精确度显著提高,分别提高了5.96%和2.14%。大多数类别的召回都有所增加,但不包括“工具-代理”和“内容-容器”。《Entity-Origin》和《MessageTheme》的召回率提升最大,分别增长了2.71%和2.68%。BERT-GMAN模型的所有关系类别的F1-得分均好于BERT模型。“仪器代理”和“会员收藏”的F1-得分显著上升,分别上升了2.78%和2.35%。

      图11的可视化结果可以直观地反映出,在BERT-GMAN模型训练达到稳定后,各关系类别的F1-Score曲线都高于BERT模型。这表明本文的模型可以对每一种关系类别产生积极的影响。

      4.4.5. Case study

      为了进一步探讨BERT-GMAN模型对关系抽取性能的影响,本文选取了一些实验案例进行分析。表10显示了SemEval-2010 Task8数据集上关系抽取的案例研究。

      • 在第一个例子中,BERT和BERT(没有SDP)错误地将范例归类为‘’Other‘范畴,但带有约束信息的BERT-SDP和BERT-GMAN模型正确地预测了范例的标签为’‘Entity-Destination(e1,e2)’‘范畴。BERT倾向于对完整的句子进行编码,但句子中与分类无关的信息往往会干扰分类结果。因此,引入约束信息可以减少句子中无关信息对模型的干扰,提高模型的分类效果。

      • 在第二个例子中,只有BERTGMAN模型能够正确地预测例子的标签,原因是在对句子中的无关信息生成约束时,考虑了句子中的关键短语信息,这可以增强句子和实体的语义表示。

      结果表明,该模型能有效地提高关系抽取的准确率。

      5. Analysis of errors

      本文使用混淆矩阵法将BERT-GMAN模型的预测结果与真实结果进行比较,如图12所示。混淆矩阵中对角线上的值表示正确的预测结果,其他区域反映了模型预测结果的误差分布。

      从图12的最后一栏可以看出,本文的模型将更多的句子错误归类为“其他”类别,

      • 例如‘‘At the bottom of the [E11] church [E12] [E21] steps [E22] were three brown parishioners”,这是“Component-whole”类别,而本文模型的预测结果是“其他”类别。

      • 对于另一句话‘‘The [E11] rabbits [E12] are unhappy when left alone in a [E21] hutch [E22] in the garden as they need company”是”Content-Container“类别,而本文模型的预测结果是”“Other”“类别。

      该模型预测误差的原因是缺少用于表示实体对周围关系类别的词或短语,因此该模型只能依靠实体本身的语义信息进行分类,这降低了实体关系提取的准确性。

      在未来的研究工作中,将引入外部知识,以增强模型对实体语义信息的理解,并有效地解决句子中实体上下文信息不足的问题。

      6. 启示

      1. 这篇paper写的也太鸡儿详细了,笔记给我都做快疯了。
      2. related work部分写的并不是特别亮眼,本文主要抓住一个点进行叙述:忽略了重要短语信息在关系抽取中的关键作用,但是个人感觉instruction并没有说服我DSP能解决这个问题,这是当做一个query而已。
      3. 试验也是真的多,太多定量分析了,对于试验结果的分析不错,各位炼丹师们赶紧拿去copy。
      4. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 数据增强用于跨领域命名实体识别

      Data Augmentation for Cross-Domain Named Entity Recognition

      数据增强用于跨领域命名实体识别

      Abstract

      目前在命名实体识别(NER)方面的工作表明,数据增强技术可以产生更健壮的模型。然而,大多数现有技术都专注于在带注释的数据非常有限的低资源场景中增强域内数据。相反,本文研究了用于NER任务的跨域数据增强。本文研究了通过将来自高资源域的数据投影到低资源域来利用这些数据的可能性。具体地说,本文提出了一种新的神经结构,通过学习模式(如样式、噪声、缩略语等)将数据表示从高资源领域转换到低资源领域。在区分它们的文本和两个域对齐的共享特征空间中。本文对不同的数据集进行了实验,结果表明,与仅使用高资源域的数据相比,将数据转换为低资源域表示获得了显著的改进。

      1 Instruction

      随着预训练语言模型的最近进展,命名实体识别(NER)的性能有了显著的提高。然而,此类模型的高性能通常依赖于训练数据的大小和质量。当在低资源甚至零资源场景下使用时,这些模型难以在不同的领域中推广,并且由于缺乏注释数据,性能急剧下降。不幸的是,标注更多的数据通常既昂贵又耗时,而且需要专业领域知识。此外,在语言变化迅速的领域(例如,社交媒体),带注释的数据可能很快就会过时,从而导致时间漂移问题。

      缓解上述限制的一种常见方法是数据增强,其中自动生成的数据可以增加训练集的大小和多样性,同时导致模型性能提高。但是在NER环境下的数据增强仍然没有得到充分的研究。直接修改训练集中的单词的方法(例如,同义词替)和单词交换可能会在修改后无意中导致错误标记的实体。最近在低资源场景下的NER工作是有希望的An analysis of simple data augmentation for named entity recognition,但它仅限于相同的域设置,而且随着训练数据大小的减小,性能会急剧下降。

      为了促进这一方向的研究,本文通过将来自高资源域的数据投影到低资源域来研究如何利用这些数据。根据本文的观察,不同领域的文本通常呈现出独特的模式(如风格、噪音、缩略语等)。如图1所示,Newswire领域的文本长而正式,而社交媒体领域的文本简短而嘈杂,经常出现许多语法错误、拼写错误和语言变化。

      在这项工作中,本文假设即使文本模式在不同的领域是不同的,文本的语义仍然是可以转移的。此外,命名实体的显示方式有一些不变因素,本文假设模型可以从中学习。在这项工作中,本文提出了一种跨域的自动编码器模型,能够提取不同域中的文本模式,并学习域对齐的共享特征空间。通过在6个不同领域和10个领域对的两个数据集上的实验,本文对本文的数据增强方法进行了评估,结果表明,将数据从高资源领域转换到低资源领域是一种比简单地使用来自高资源领域的数据更有效的方法。本文还在NER任务的上下文中探索了针对域内和域外数据的低资源场景下的数据增强方法。

      综上所述,本文主要做了以下几个方面的工作:

      1. 提出了一种新的神经网络结构,该结构能够学习文本模式,有效地将文本从高资源领域转换到低资源领域。
      2. 在6个不同的域和10个不同的域对的两个数据集上,系统地评估了本文提出的方法,并展示了跨域数据增强对于NER任务的有效性。
      3. 本文在低资源场景中经验地探索了本文的方法,并展示了本文的方法可以使低资源节点任务受益的情况

      2 Related work

      数据增强旨在通过略微修改现有数据的副本或从现有数据添加新生成的合成数据来增加训练数据的大小。近年来,它对于NLP任务变得更加实用,特别是在注释数据有限的低资源场景中。该方法无需采集新的数据,降低了标注成本,提高了模型性能。

      以前的工作已经研究了token-level任务序列级任务的数据扩充。关于名词短语的数据扩充,An analysis of simple data augmentation for named entity recognition进行了一项研究,主要集中在简单的数据扩充方法上,如同义词替换(即用其同义词替换标记)和提及替换(即随机将提及替换为具有相同实体类型的另一个替换)。SeqMix: Augmenting Active Sequence Labeling via Sequence Mixup研究了序列混合(即在特征空间和标签空间混合符合条件的序列),以提高数据多样性和增强用于主动学习的序列标记。DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks提出了一种使用对抗性学习来生成高质量合成数据的新方法,该方法既适用于监督环境,也适用于半监督环境。

      在跨域环境中,NER模型难以概括不同的流派。大多数现有的工作主要研究领域适应,其目的是适应来自源域的神经模型,以在来自目标领域的数据上取得更好的性能。Zero-Resource Cross-Domain Named Entity Recognition提出了一个零资源跨域框架来学习命名实体的一般表示。在本文的工作中,本文专注于跨域数据增强。该方法旨在将数据从高资源域映射到低资源域。通过学习不同领域数据的文本模式,本文提出的方法将数据从一个领域转换到另一个领域,并在低资源环境下使用生成的数据来提高模型的性能。

      3 Proposed Method

      在这项工作中,本文提出了一种新的神经结构,通过将文本从高资源域转换到低资源域来增加NER任务的数据。整个神经结构如图2所示。

      本文考虑两个无与伦比的数据集:一个来自源域DsrcD_{src}Dsrc​,另一个来自目标域DtgtD_{tgt}Dtgt​ 。本文首先通过在对应的单词之前插入每个实体标签来线性化所有句子。在每次迭代中,本文随机将DsrcD_{src}Dsrc​ 中的一个句子和DtgtD_{tgt}Dtgt​ 中的一个句子作为模型的输入。该模型从逐字去噪重构开始,然后进行去变换重构。

      在去噪重建中,本文的目标是训练模型以无监督的方式学习基于输入所来自的域的压缩表示。本文通过洗牌、删除或掩饰一些单词来向每个输入句子注入噪音。编码器被训练来捕获文本语义,并学习使每个句子与其他领域的句子不同的模式。然后,本文通过最小化训练目标来训练解码器,该训练目标衡量的是它从相应域中的噪声版本重构每个句子的能力。在去变换重构中,目标是根据句子的文本语义将句子从一个领域转换到另一个领域。本文首先将每个句子从源/目标域转换到目标/源域,并将上一训练步骤中的模型作为输入。然后,编码器为转换后的句子生成潜在的表征。之后,与去噪重构不同的是,这里的解码器被训练来从对应域中的变换版本重构每个句子。除了去噪和去变换重构外,本文还训练了一个鉴别器来区分编码器产生的潜在向量是来自源域还是来自目标域。在这种情况下,编码器可以生成有意义的中间表示。否则,该模型将绕过域之间的中间映射步骤,并通过记忆而不是泛化来取代它。在接下来的几节中,本文将介绍本文的模型体系结构和训练算法的细节。

      3.1 Data Pre-processing

      遵循DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks的观点,本文对句子进行线性化,使模型能够学习词和标签的分布和关系。在这项工作中,本文使用了标准的BIO图式。给定单词序列w=w1,…wnw={w_1,…w_n}w=w1​,…wn​和标签序列l=l1,…lnl={l_1,…l_n}l=l1​,…ln​,本文首先通过将每个标签lil_ili​ 放在对应的单词wiw_iwi​之前来线性化具有标签的单词。然后,本文生成一个新的句子x=l1,w1,l2,w2,…,ln,wnx={l_1,w_1,l_2,w_2,…,l_n,w_n}x=l1​,w1​,l2​,w2​,…,ln​,wn​。

      3.2 Cross-domain Autoencoder

      Word-level Robustness

      本文的跨域自动编码器模型包括一个编码器Enc:X→z,它将输入序列从数据空间映射到潜在空间。以前的工作已经证明,输入扰动对于使用强大的序列网络的离散文本建模特别有用,因为它们鼓励保留潜在空间表示中的数据结构。在这项工作中,本文通过用三种不同的操作(参见表1)注入噪声来扰动每个输入句子,以确保相似的输入句子可以具有相似的潜在表征。

      Denoising Reconstruction

      去噪重建的神经结构如图2(A)所示。考虑一对不平行的句子:一个句子来自源域中的DsrcD_{src}Dsrc​,另一个句子xtgtx_{tgt}xtgt​ 来自目标域中的DtgtD_{tgt}Dtgt​ 。该模型通过共享相同的编码器和解码器参数,同时使用不同的嵌入查找表来训练以重构每个句子。令牌嵌入器EmbsrcEmb_{src}Embsrc​ 和EmbtgtEmb_{tgt}Embtgt​ 保存对应域的查找表。该编码器是一种双向LSTM模型,以噪声线性化语句作为输入,返回隐含状态作为潜在向量。在每个解码步骤,解码器将来自前一步骤的当前单词和潜在向量作为输入。然后,它使用相应领域中的词汇将每个向量从潜在空间投射到词汇空间,并以附加注意预测下一个单词。

      去噪重建的培训目标定义如下。这个训练目标的目的是迫使模型学习一个共享空间,在那里两个领域通过潜在向量对齐,并生成输入句子的压缩版本。

      Detransforming Reconstruction

      在去变换重构中,第一步是将每个句子从源/目标域转换到目标/源域。如图2(B)所示,给定来自源和目标域的一对序列xsrcx_{src}xsrc​ 和xtgtx_{tgt}xtgt​,
      本文首先通过应用来自前一训练步骤的模型Mθi−1M_{\theta}^{i-1}Mθi−1​来将xsrcx_{src}xsrc​映射到目标域中的x∼<em>tge\overset{\sim}{x}<em>{tge}x∼<em>tge,并且将x</em>tgtx</em>{tgt}x</em>tgt映射到源域中的x∼src\overset{\sim}{x}_{src}x∼src​,该模型包括嵌入器、编码器和解码器。

      之后,本文将x∼<em>tgt\overset{\sim}{x}<em>{tgt}x∼<em>tgt和˜xsrc提供给编码器,并生成压缩的潜在表示z</em>tgtz</em>{tgt}z</em>tgt和zsrcz_{src}zsrc​。则解码器将ztgtz_{tgt}ztgt​映射到源域中的xsrcx_{src}xsrc​,并将zsrcz_{src}zsrc​映射到目标域中的xtgtx_{tgt}xtgt​。
      目标是学习不同结构域之间的映射,并根据其在相应结构域中的转换版本重建序列。去变形重建的培训目标如下所示:

      Domain Classification

      对于领域分类,本文采用对抗性训练。本文使用编码器从不同的领域提取句子的文本模式。编码器生成输入的加噪声或变换版本的潜在表示,而鉴别器判断给定的潜在向量实际上是来自源域还是目标域。然后,编码器将改进其技术以愚弄鉴别器,最终捕获模式以将文本从源/目标域转换到目标/源域。首先在去噪重构中训练鉴别器,然后在去变换重构中对鉴别器进行微调,以区分源域句子和目标域句子。如图2所示,鉴别器DX从两个域获取输入,而不知道序列来自哪里。然后,该模型预测输入的相应领域。输入是潜在向量z,其中两个域已被映射到相同的空间。本文将这一任务描述为二进制分类任务。对抗性训练的训练目标描述如下:

      Final Training Objective

      最终培训目标定义为:

      3.3 Training Algorithm

      去噪重构和域分类分量。因此,在这项工作中,本文分两个阶段来训练本文的模型。在第一阶段,本文只对模型进行去噪重建和领域分类,以便它能够学习文本模式并生成每个领域数据的压缩表示。本文计算去噪重建的困惑度作为迭代选择最佳模型的标准。在第二阶段,本文结合去噪重构、去变换重构和领域分类对模型进行训练。目标是对齐来自不同域的数据的压缩表示,以便模型可以将数据从一个域投影到另一个域。本文计算去噪和去变换重构的困惑之和作为模型选择的标准。

      3.4 Data Post-processing

      本文使用跨域自动编码器模型生成合成数据,如第3.2节所述。本文将生成的数据从线性化格式转换为与gold数据相同的格式。本文使用以下规则对生成的数据进行后处理:1)移除不遵循标准BIO模式的序列;2)移除具有<UNKUNKUNK>或<MSKMSKMSK>标记的序列;3)移除没有任何实体标签的序列。

      4 Experiments

      在这一部分中,本文将介绍跨域映射实验和NER实验。在跨域映射实验中,分析了该模型的重构和生成能力。然后,本文测试了本文提出的方法,并评估了本文的模型在NER任务中生成的数据。数据集、实验设置和结果的详细信息如下所述。

      4.1 Datasets

      在本文的实验中,本文使用了两个数据集:Ontonotes 5.0数据集和时态Twitter数据集。本文选取了六个不同的英语领域的数据,包括广播对话(BC)、广播新闻(BN)、杂志(MZ)、新闻通讯社(NW)、网络数据(WB)和社交媒体(SM)。所有数据都使用以下18个实体标签进行注释:Person、NORP、FAC、ORG、GPE、LOC、PRODUCT、EVENT、Work_of_Art、Law、Language、Date、Time、Percent、Money、Quantity、Orial、Cardinal。下面本文将介绍如何对每个数据集进行预处理:

      Ontonotes 5.0数据集

      本文使用来自五个不同域的子集,包括广播会话(BC)、广播新闻(BN)、杂志(MZ)、新闻通讯社(NW)和网络数据(WB)。遵循Pradhan等人的观点。(2013),本文使用相同的拆分,并从每个数据集中删除重复序列。

      Temporal Twitter Dataset

      此数据集从社交媒体(SM)域收集。它包括从2014年到2019年的推文,每年有2000个样本。本文使用2014-2018年的数据作为训练集。在Rijhwani和PreitiucPietro(2020)的基础上,本文使用2019年的500个样本作为验证集,并使用另外1500个2019年的样本作为测试集。

      4.2 Cross-domain Mapping

      在这一部分中,本文描述了本文提出的跨域自动编码器模型的实验设置,并报告了评估结果。

      Cross-domain Autoencoder

      本文使用本文提出的跨域自动编码器模型(在第3.2节中描述)来生成合成数据。在本文的实验中,本文使用最常见的10K单词和5个特殊的标记来构建词汇表:<PADPADPAD>、<UNKUNKUNK>、<BOSBOSBOS>、<EOSEOSEOS>和<MSKMSKMSK>。本文使用双向LSTM层作为编码层,使用LSTM层作为解码层。对于鉴别器,本文使用线性层。

      Results

      对于跨域映射实验,本文考虑两个不同的域作为源域:NW和SM。自然语言中的语篇模式与其他领域中的语篇模式相似,而语篇模式中的语篇模式与其他领域中的语篇模式有很大的不同(参见关于领域相似性的附录B)。在表2中,本文报告了在10个不同结构域对上的跨域映射实验结果。

      本文使用困惑作为衡量重建的指标。迷惑度越低,重建的准确性越高,重建质量越高。从实验结果中本文注意到,以自然语言为源域的平均困惑度低于以SM为源域的平均困惑度,这表明当文本模式可移植时,该模型可以很容易地重构域内和域外的句子。

      4.3 Named Entity Recognition

      在这里,本文描述了用于NER实验的序列标记模型的实验设置,并报告了评估结果。

      Sequence Labeling Model

      本文微调了Bert模型,以评估本文在NER任务上的跨域映射方法。BERT接受了来自一般领域的文本的掩蔽语言建模和下一句预测目标的预训练。本文使用ERT作为基本模型,因为它能够生成上下文词语表征,并在许多NLP任务中获得高性能。本文在BERT编码器的基础上增加了一个线性层,将每个令牌划分为预定义的实体类型。超参数在附录A中描述。

      Results

      为了评估生成数据的质量,本文在NER任务上进行了10个不同领域对的实验。对于每个域对,本文考虑了三个实验:

      1. 源域:基于来自源域的数据训练模型作为下界;
      2. 目标域:基于来自目标域的数据训练模型作为上界;
      3. Gen:基于生成的数据结合来自源域的数据训练模型。

      基于这些结果,本文观察到,当文本在源域和目标域的模式非常接近(以NW为源域)时,改进相当有限,甚至没有改善。在大多数以NW为源域的实验中,F1值的提高都不到1%。在NW→BC的实验中,本文可以看到当将生成的数据与源域的数据组合作为训练数据时,性能会下降。本文怀疑这是因为本文模型中的鉴别器不能区分潜在向量来自哪个领域。因此,模型不能生成有意义的中间表示,从而导致较低的性能。然而,当模式不相似(SM作为源域)时,GEN可以比下界高出18.93%的F1分数,这表明模型对来自每个域的文本模式有很好的理解,并且生成的数据的文本模式与来自目标域的数据比来自源域的数据更相似。

      Comparison with Previous Work

      为了与以往的神经网络数据扩充方法进行比较,本文将来自源域的训练数据进行扩充(即生成合成数据并与原始训练数据组合)作为训练集。验证集和测试集来自目标域。本文首先在不使用任何数据增强技术的情况下建立基线Exp 2.0基线(无增强)。然后本文考虑7种不同的方法,包括1)Exp 2.1键盘增强:基于键盘距离随机替换字符,2)Exp 2.2交换增强:随机交换每个单词内的字符,3)Exp 2.3删除增强:随机删除字符,4)Exp 2.4拼写增强:通过拼写错误单词词典替换单词,5)Exp 2.5同义词替换:用WordNet(Miller,1995)同义词替换单词,6)Exp 2.6上下文替换:用BERT上下文词嵌入替换单词,以及7)Exp 2.7 Daga等人的Exp 2.7 Daga。(2020)。

      在表4中,本文通过报告F1分数将本文的方法与以前的NER任务的数据增强方法进行了比较。本文考虑了两个不同的实验:NW→SM和SM→NW。本文将来自源域的数据作为训练数据进行扩充。验证数据和测试数据来自目标域。基于研究结果,本文观察到:1)相对于传统的数据扩充(Exp 2.1~Exp 2.6),改进是相当有限的。其中只有3种方法在NW、→SM和SM→NW上都能超过基线,性能增益在0.34%~1%F1分之间;2)数据增强技术在训练样本数量较少的情况下是有效的。例如,在SM→NW中,当仅使用1000个训练样本时,所有方法都可以超过基线。然而,当使用4K训练样本时,只有三个样本可以超过基线;3)简单地学习每个领域的文本模式(Exp 2.7)并不总是能产生良好的性能。当训练数据的大小相当有限时,该模型难以学习文本模式,因此无法达到良好的性能;4)将文本从源域转换到目标域是非常有效的,因为在两次实验中,它的平均性能分别比基线高8.7%和10.1%。

      5. 启示

      1. 本文从数据增强的角度提升few-shot的性能,实验做了很多,对于实验部分的分析写的特别好。使用数据增强方法做其他的任务的炼丹师们可以好好的看一下这篇论文。
      2. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 一种用于联合实体和关系提取的划分过滤网络

      A Partition Filter Network for Joint Entity and Relation Extraction

      一种用于联合实体和关系提取的划分过滤网络

      code

      Abstract

      在联合实体和关系提取中,现有的工作要么对特定于任务的特征进行顺序编码,导致任务间特征交互不平衡,即后来提取的特征与第一个提取的特征没有直接联系。或者它们以并行的方式编码实体特征和关系特征,这意味着每个任务的特征表征学习在很大程度上是相互独立的,除了输入共享。提出了一种划分过滤网络来对任务间的双向交互进行合理建模,将特征编码分解为划分和过滤两个步骤。在本文的编码器中,本文利用两个门:实体门和关系门,将神经元分割成两个任务分区和一个共享分区。共享分区表示对两个任务都有价值的任务间信息,并且在两个任务之间均匀地共享以确保正确的双向交互。任务分区代表任务内信息,通过两个门的共同努力形成,确保任务特定特征的编码相互依赖。在六个公开数据集上的实验结果表明,本文的模型的性能明显好于以前的方法。此外,与前人的工作相反,本文的辅助实验表明,关系预测对命名实体预测具有不可忽略的贡献。

      1 Instruction

      联合实体和关系抽取旨在同时抽取给定文本中的实体和关系事实,以形成(s,r,o)的关系三元组。提取的信息为许多研究提供了补充,例如知识图谱构建、问题回答和文本摘要。

      传统上,命名实体识别(NER)和关系提取(RE)是以流水线方式执行的。这些方法是有缺陷的,因为它们没有考虑到NER和RE之间的密切联系。此外,错误传播是流水线方法的另一个缺点。为了克服这些问题,提出了实体和关系的联合提取方法,并在这两种任务上都表现出了较好的性能。在早期的工作中,联合方法主要依靠精细的特征工程来建立NER和RE之间的交互。最近,端到端神经网络已被证明在提取关系三元组方面取得了成功,并已成为联合实体和关系提取的主流。

      根据它们在编码特定任务特征方面的不同,现有的大多数方法可以分为两类:顺序编码和并行编码。在顺序编码中,特定于任务的特征是按顺序生成的,这意味着首先提取的特征不会受到后来提取的特征的影响。在并行编码中,使用共享输入独立地生成特定于任务的特征。与顺序编码相比,基于该方案构建的模型不需要担心编码顺序的影响。由于这两个特定于任务的特征都是通过孤立的子模块提取的,因此这种方法属于并行编码的范畴。

      然而,上述两种编码设计都不能很好地模拟NER和RE任务之间的双向交互作用。在顺序编码中,交互只是单向的,具有特定的顺序,导致暴露在NER和RE任务中的信息量不同。在并行编码中,尽管编码顺序不再是一个问题,但交互只存在于输入共享中。考虑到在特征编码中加入双向交互,本文采用了一种替代的编码设计:联合编码。该设计使用单个编码器对特定于任务的特征进行编码,其中应该有一些交互部分用于任务间的通信。

      在这项工作中,本文使用分区过滤编码器来实例化联合编码。本文的编码器首先使用实体门和关系门根据每个神经元对单个任务的贡献对其进行分类和划分。在此过程中,将形成两个任务分区和一个共享分区(参见图1)。

      然后将单个任务分区和共享分区相结合,生成特定于任务的特征,过滤掉存储在相反任务分区中的无关信息。

      在本文的编码器中,任务交互通过两种方式实现:首先,通过实体门和关系门的共同努力来形成分区,特别是特定于任务的分区,允许实体的形成和由这些分区确定的关系特征之间的交互。第二,共享分区表示对两个任务都有用的信息,对于形成两个任务特定的特征是平等的,确保了平衡的双向交互。本文工作的贡献总结如下:

      1. 提出了分区过滤网络,这是一个专门为联合编码设计的框架。该方法能够对特定于任务的特征进行编码,并保证了NER和RE之间正确的双向交互。

      2. 在六个数据集上进行了大量的实验。主要结果表明,本文的方法优于其他基线方法,消融研究为本文的框架提供了最好的方法。

      3. 与前人的工作相反,本文的辅助实验表明,关系预测对命名实体预测具有不可忽略的贡献。

      2 Related Work

      近年来,联合实体和关系抽取方法一直专注于解决三重重叠问题和对任务交互进行建模。重叠三元组问题指的是三元组共享相同的实体(SEO,即SingleEntityOverlap)或实体(EPO,即EntiyPairOverlack)。

      例如,在\“Adam and Joe Are Born in the USA\”中,由于三元组(Adam,Birth Place,USA)和(Joe,Birth Place,USA)只共享一个实体\“USA\”,因此应归类为SEO三元组;

      或在\“Adam was born in the USA and lived there ever since.”中,三元组(Adam,Birthplace,USA)和(Adam,Residence,USA)同时共享这两个实体,因此应归类为EPO三元组。

      一般来说,有两种方法可以解决这个问题。一种是通过生成方法,其中实体和关系的提及可以在输出序列中多次解码,另一种是通过使用序列分别对每个关系进行建模。本文的方法使用特定于关系的表来分别处理每个关系。

      然而,大多数以前的工作都没有很好地处理任务交互建模。在以前的一些方法中,任务交互是通过实体和关系预测共享相同的特征来实现的TPLinker: Single-stage joint extraction of entitiesand relations through token pair linking。这可能是有问题的,因为关于实体和关系的信息有时可能是矛盾的。此外,由于使用顺序编码或并行编码的模型在特征提取中缺乏适当的双向交互,对这些特征进行的预测遇到了不正确交互的问题。在本文的工作中,分区过滤编码器建立在联合编码的基础上,能够更好地处理任务间信息的通信,以避免顺序和并行编码(曝光偏差和交互不足)的问题,同时使任务内信息远离相反的任务,以缓解任务之间的负迁移问题。

      3 Problem Formulation

      该框架将联合实体和关系抽取分为两个子任务:NER和RE。

      形式上,给定一个输入序列s=w1,…,wLs={w_1,…,w_L}s=w1​,…,wL​

      对于NER,本文的目标是提取将其集合被表示为s的所有类型化实体,其中<wi,e,wjw_i, e, w_jwi​,e,wj​>表示token wiw_iwi​和wjw_jwj​是类型e∈εe\in \varepsilone∈ε的实体的开始和结束token。其中ε\varepsilonε表示实体类型的集合。

      关于RE,目标是识别其集合被表示为T的所有仅头部三元组,每个三元组<wi,r,wjw_i,r,w_jwi​,r,wj​⟩∈T\in T∈T指示token wiw_iwi​和wjw_jwj​是具有关系r∈Rr\in Rr∈R的主语和宾语实体的对应开始token。

      结合NER和RE的结果,本文应该能够提取具有完整实体跨度的关系三元组。

      4 Model

      该模型包括一个分区过滤编码器和两个任务单元,即NER单元和RE单元。

      划分过滤编码器用于生成特定于任务的特征,这些特征将作为实体和关系预测的输入发送到任务单元。本文将在以下三个小节中详细讨论每个组件。

      4.1 Partition Filter Encoder分区过滤编码器

      与LSTM类似,分区过滤器编码器是一种递归特征编码器,其信息存储在中间存储器中。在每个时间步长中,编码器首先将神经元划分为三个分区:实体分区、关系分区和共享分区。然后,它通过选择和组合这些分区来生成特定于任务的特征,过滤掉与每个任务无关的信息。如图2所示,该模块专门设计用于联合提取特定于任务的特征,它严格遵循两个步骤:划分和过滤。


      图2:(A)PFN概述。该框架由三部分组成:分区滤波编码器、NER单元和RE单元。在任务单元中,本文使用填表来进行词对预测。橙色、黄色和绿色代表与NER相关、共享和与RE相关的组件或功能。(B)在单个时间步内对分区滤波编码器的详细描述。本文将特征编码分解为两个步骤:分割和过滤(如灰色区域所示)。在划分中,本文首先将神经元分割成两个任务分区和一个共享分区。然后在过滤器中,选择并组合分区以形成特定于任务的特征和共享特征,过滤掉与每个任务无关的信息。

      Partition

      该步骤执行神经元划分,将神经元划分为三个分区:两个存储任务内信息的任务分区,即实体分区和关系分区,以及一个存储任务间信息的共享分区。

      要划分的神经元是表示当前信息的候选cell c∼<em>t\overset{\sim}{c}<em>tc∼<em>t和表示历史信息的先前cell ctc_tct​。c</em>t−1c</em>{t-1}c</em>t−1是来自最后一个时间步长的直接输入,c∼t\overset{\sim}{c}_tc∼t​的计算方式与lstm相同:

      其中,Linear表示线性变换的运算。

      本文利用entity gate e∼\overset{\sim}{e}e∼ and relation gate r∼\overset{\sim}{r}r∼来进行神经元划分。

      如图1所示,代表一个特定任务的每个门将根据神经元对指定任务的有用性将神经元分为两个部分。例如,实体门˜$\overset{\sim}{e}将神经元分为两个分区:NER相关的和NER无关的。

      通过组合来自两个门的分区结果来形成共享分区。共享分区中的神经元可以被视为对两个任务都有价值的信息。为了正确地对双向交互进行建模,共享分区中的任务间信息对两个任务均可访问(这将在筛选器子部分中讨论)。此外,仅对一个任务有价值的信息对相反的任务是不可见的,并将存储在各个任务分区中。

      使用Cummax激活函数来计算门,其输出可以被视为形式为(0,…,0,1,…,1):

      公式(2)背后的直觉是识别两个截止点,在图2中显示为剪刀,这自然地将一组神经元分为三个部分。

      门将神经元划分为三个分区,实体分区ρe\rho _eρe​、关系分区ρr\rho _rρr​ and shared partition ρs\rho _sρs​。先前cell 的分区公式如下:

      候选cell c∼t\overset{\sim}{c}_tc∼t​的计算实际上与公式(3)相同,因此未示出。

      请注意,如果将所有三个分区相加,结果不等于1。这保证了在转发消息传递时,一些信息被丢弃,以确保消息不会过载,这类似于LSTM中的遗忘机制。

      然后,本文聚合来自两个目标单元的分区信息,结果形成三个分区。对于所有三个分区,本文将两个单元格中的所有相关信息相加:

      Filter

      本文提出了三种类型的内存块:实体内存、关系内存和共享内存。这里,本文将µeµ_eµe​ 表示为实体存储器,将µrµ_rµr​ 表示为关系存储器,将µsµ_sµs​ 表示为共享存储器。

      在µeµ_eµe​ 中,选择实体分区和共享分区中的信息。相反,关系划分中的信息被过滤掉,本文认为这些信息与命名实体识别任务无关,甚至是有害的。

      同样的逻辑也适用于µrµ_rµr​,其中实体分区中的信息被过滤掉,其余的被保留。此外,共享分区中的信息将以µsµ_sµs​ 存储:

      注意,共享分区中的任务间信息对于实体存储器和关系存储器都是可访问的,从而允许NER和RE之间的平衡交互。而在顺序编码和并行编码中,关系特征对实体特征的形成没有直接影响。

      在更新每个存储器中的信息后,与对应的存储器生成实体特征heh_ehe​ 、关系特征hrh_rhr​ 和共享特征hsh_shs​:

      在分割和过滤步骤之后,所有三个存储器中的信息被用来形成cell状态ctc_tct​,该cell状态ctc_tct​ 然后将被用来产生隐藏状态hth_tht​(在时间步长t的隐藏和单元状态被输入到下一个时间步长):

      4.2 Global Representation

      在本文的模型中,本文使用单向编码器进行特征编码。双向设置中的后向编码器被特定于任务的全局表示所取代,以捕获未来上下文的语义。从经验上看,这似乎更有效。对于每个任务,全局表示是特定于任务的特征和共享特征的组合,计算方法如下:

      4.3 Task Units

      该模型由两个任务单元组成:NER单元和RE单元。在NER单元中,目标是对给定句子中的所有实体跨度进行识别和分类。更具体地说,该任务被视为特定于类型的表格填充问题。

      给定一个实体类型集合ε\varepsilonε,对于每个类型k,本文填写一个表,其元素eijke_{ij}^keijk​ 表示词wiw_iwi​和词wjw_jwj​作为具有类型k的实体的开始和结束位置的概率。

      对于每个词对(wi,wjw_i,w_jwi​,wj​),本文将词级实体特征hieh_i^ehie​ 和hjeh_j^ehje​ 以及语句级全局特征hgeh_g^ehge​ 连接在一起,然后将其送入具有ELU激活的全连通层,以获得实体跨度表示hijeh_{ij}^ehije​:

      利用跨度表示,本文可以通过将跨度反馈到前馈神经层来预测跨度是否是类型为k的实体:

      在RE单元中的计算大多与NER单元对称。给出一组用T表示的gold关系三元组,这个单元的目标是识别句子中的所有三元组。本文只预测这个单元中每个实体的起始词,因为实体跨度预测已经包含在NER单元中。与NER类似,本文认为关系抽取是一个特定于关系的表填充问题。

      给定一个关系标签集R,对于每个关系l∈Rl \in Rl∈R,本文填写一个表,其元素rijlr_{ij}^lrijl​ 表示词wiw_iwi​和词wjw_jwj​作为主语和宾语实体的起始词的概率。

      这样,本文就可以用一个关系表来提取所有围绕关系lll的三元组。对于每个三元组(wi,l,wj)(w_i,l,w_j)(wi​,l,wj​),类似于NER单位,三元组表示hijrh_{ij}^rhijr​ 和关系得分rijlr_{ij}^lrijl​ 计算如下:

      4.4 Training and Inference

      对于给定的训练数据集,在训练期间指导模型的损失函数L由两部分组成:用于NER unit的LnerL_{ner}Lner​ 和用于RE unit的LreL_{re}Lre​:

      其中e∧ijk\overset{\wedge}{e}^k_{ij}e∧ijk​ and r∧ijl\overset{\wedge}{r}^l_{ij}r∧ijl​分别是实体表和关系表的ground truth标签。eijke_{ij}^keijk​ and eijle_{ij}^leijl​是预测中的两个。对每项任务都采用BCELoss。训练目标是最小化损失函数L,其计算公式为Lner+LreL_ner+L_reLn​er+Lr​e。

      在推理过程中,本文通过结合NER和RE单元的结果来提取关系三元组。
      对于每个合法的三元预测(si,jk,l,om,nk’)(s_{i,j}^k,l,o_{m,n}^{k’})(si,jk​,l,om,nk’​),其中l是关系标签,k和k’是实体类型标签,并且索引i,j和m,n分别是主体实体s和客体实体o的开始和结束索引,应满足以下条件:

      λe和λr是用于实体和关系预测的阈值超参数,都被设置为0.5而无需进一步微调。

      5 Experiment

      5.1 Dataset, Evaluation and Implementation Details

      本文在六个数据集上对本文的模型进行了评估。《NYT》、WebNLG、ADE、Science ERC、ACE04和ACE05.

      在前面工作的基础上,本文在NYT/WebNLG上评估了本文的模型在部分匹配下的性能,其中只注释了实体的尾部。此外,由于实体类型信息在这些数据集中没有标注,本文将所有实体的类型设置为单个标签\“None\”,因此在本文的模型中不会预测实体类型。在ACE05、ACE04、ADE和SciERC上,本文在实体的头部和尾部都被标注的精确匹配下对本文的模型进行了评估。对于ADE和ACE04,分别使用10次和5次交叉验证对模型进行评估,并使用15%的训练集来构建开发集。对于评估指标,本文同时报告了NER和RE的F1分数。在NER中,只有当实体的类型和边界正确时,才会将其视为正确的。在RE中,只有当两个实体的类型、边界及其关系类型正确时,三元组才是正确的。此外,本文在ADE中报告了Macro-F1得分,在其他数据集中报告了Micro-F1得分。

      本文根据开发集的表现(NER和RE的最佳F1平均得分)来选择本文的模型参数,并在测试集上报告结果。

      5.2 Main Result

      在部分注释的数据集WebNLG和NYT中,在BERT的设置下。对于RE,本文的模型在WebNLG上获得了1.7%的改进,但在NYT上的性能仅比以前的Sota TpLinker 略高0.5%。本文认为,这是因为《NYT》是在远程监督下产生的,对实体和关系的注释往往是不完整和错误的。与TpLinker相比,该方法的优点在于加强了实体和关系之间的双向交互。然而,在处理有噪声的数据时,强度可能会适得其反,因为两个任务之间的错误传播也会被放大。

      5.3 Ablation Study

      在这一部分中,本文将从编码层的数量、双向与单向、编码方案、划分粒度和解码策略五个不同的方面来仔细查看和检查本文框架在关系提取方面的有效性。

      Number of Encoder Layers

      与递归神经网络类似,本文用任意层数堆叠本文的分区滤波编码器。在这里,本文只检查不超过三层的框架。如表2所示,向本文的分区过滤器编码器添加层不会导致F1分数的提高。

      这表明对于编码特定于任务的功能,一个层就足够好了。

      Bidirection Vs Unidirection

      通常,本文需要两个分区过滤器编码器(一个以相反的顺序)来对前向和后向上下文之间的交互进行建模。然而,正如在第4.2节中讨论的那样,本文的模型用全局表示取代了向后编码器,以使未来的上下文对每个单词都可见,从而实现了与双向设置类似的效果。为了找出哪种方法效果最好,本文在消融研究中对这两种方法进行了比较。从表2中本文发现,具有全局表示的单向编码器的性能优于没有全局表示的双向编码器,这表明全局表示比反向编码器更适合为每个单词提供未来的上下文。此外,当涉及全局表示时,单向编码器的F1得分与双向编码器相似,说明单独使用全局表示就足以捕捉未来语境的语义。

      Encoding Scheme

      本文用两个LSTM变体替换了本文的分区过滤器编码器,以检验本文的编码器的有效性。在并行设置中,本文使用两个LSTM编码器来分别学习特定于任务的功能,并且不允许交互,除非共享相同的输入。在只允许单向交互的顺序设置中,从第一个LSTM编码器生成的实体特征被馈送到第二个编码器以产生关系特征。从表2中,本文观察到本文的分区过滤器的性能远远超过LSTM变体,证明了本文的编码器在建模双向交互方面比其他两种编码方案的有效性。

      Partition Granularity

      本文将神经元分割成几个块,并在每个块内进行划分。每个块共享相同的实体门和关系门。因此,所有区块的分区结果保持不变。例如,对于一个300维的神经元集合,如果本文将其分成10个块,每个块有30个神经元,那么只需要两个30维门来进行神经元划分。本文将上述操作称为粗略划分。相比之下,本文的细粒度分区可以被视为一个特例,因为神经元只被分割成一个块。本文将本文的细粒度分区(块大小=300)与粗粒度分区(块大小=10)进行比较。表2显示细粒度分区比粗粒度分区性能更好。这并不像在粗略的划分中那样令人惊讶,对于编码者来说,为每个块执行相同的神经元划分的假设可能太强了,无法正确地分离每个任务的信息。

      Decoding Strategy

      在类似流水线的方法中,对系统认为在其实体预测中有效的实体执行关系预测。本文认为,更好的关系预测方法是考虑所有无效的词对。本文将前一种策略称为选择性译码,将后者称为通用译码。对于选择性解码,本文仅根据在NER单元中计算的实体分数来预测被认为有效的实体的关系分数。表2显示了包含所有否定实例的通用译码比选择性译码更好。除了缓解错误传播,本文认为普遍解码类似于对比学习,因为负实例有助于通过内隐比较更好地识别正实例。

      6 Effects of Relation Signal on Entity Recognition

      实体识别有助于预测关系,这是一个被广泛接受的事实,但关系信号对实体预测的影响在研究者中仍然存在分歧。
      通过两个辅助实验,本文发现关系信号的缺失对实体识别有相当大的影响。

      6.1 Analysis on Entity Prediction of Different Types

      在表1中,本文的模型的NER性能始终好于其他基线,除了ACE05,其性能落后于不可忽略的差距。本文认为这可以归因于这样一个事实,即ACE05包含许多不属于任何三元组的实体。


      为了证实本文的说法,在这一部分中,本文试图量化属于特定三元组的实体和那些与其他实体没有关系的实体之间的实体预测性能差距。前者称为三元组内实体,后者称为三元组外实体。本文将实体分成两组,并在ACE05/ACE04/SciERC中测试每组的NER性能。在NYT/WebNLG/ADE中,由于不存在三选一实体,因此不对这些数据集进行评估。

      如表3所示,三重实体内预测和三重外实体预测之间存在巨大差距,特别是在本中心,其差异分数达到26.6%。

      NER对不同的实体类型产生结果。根据实体是否出现在关系三元组中,实体被分为两组:三元组中的实体和三元组之外的实体。差异是三元组和非三元组之间的性能差异。Ratio是给定类型的实体数除以测试集中的总实体数(ACE04中组合的列车、开发和测试集)。ACE04的结果平均超过5倍

      本文认为,这可能归因于这样一个事实,即考虑到它涉及到科学术语的识别,并且SciERC中实体的平均长度更长,因此SciERC中的实体预测通常更难。另一个观察结果是,差异得分在很大程度上归因于精度的差异,这意味着如果没有关系信号的指导,本文的模型往往对实体预测过于乐观。

      此外,与PUREA frustratingly easy approach for entity and relation extraction相比,本文发现NER的整体性能与数据集中三元组外实体的百分比呈负相关。特别是在ACE05中,本文的模型的性能相对较弱,超过64%的实体是三者之外的。这种现象体现了联合模型的弱点:考虑到关系信息与实体预测之间的动态关系对于三重内实体和出三重实体的动态不同,NER和RE的联合建模可能会对实体预测造成一定的损害,因为三重内实体和三重外实体的推理模式是不同的。

      6.2 Robustness Test on Named Entity Recognition

      在恶劣环境下,本文使用稳健性测试来评估本文的模型。从表4中,本文观察到,与其他基线相比,本文的模型对输入扰动的弹性大多更强,特别是在跨类别类别中,这可能是因为本文训练中使用的关系信号对实体施加了类型约束,因此实体类型的推断受目标实体本身的语义影响较小,而是受到实体周围的(关系)上下文的影响。

      6.3 Does Relation Signal Helps in Predicting Entities

      与PUREA frustratingly easy approach for entity and relation extraction的说法相反(关系信号对实体预测的影响很小),本文发现了几条线索,表明情况并非如此。首先,在6.1节中,本文观察到三元组中的实体比三组外的实体更容易预测,这表明关系信号对实体预测是有用的。其次,在6.2节中,本文在NER中进行了稳健性测试,以评估本文的模型抗输入扰动的能力。在稳健性测试中,本文将本文的方法–唯一的联合模型与其他与关系无关的基线进行了比较。结果表明,本文的方法对不利环境具有更强的弹性,这可以(至少部分)通过引入关系信号来解释。综上所述,本文发现关系信号确实对实体预测有不可忽视的影响。PURE得出关系信息对实体预测影响最小的结论的原因很可能是选择性偏见,这意味着评估的数据集ACE05包含很大比例的三元组中的实体(64%),其本质上不需要任何关系信号本身。

      7 启示

      1. 2021年关系抽取的SOTA,创新点确实牛,论文写的也无敌强。
      2. 对于关系有助于实体抽取的是直接给出的结论,如果能够给出具体的数据集示例就完美了。
      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 矩阵相乘详解

      矩阵相乘详解

      已知三个矩阵A,B,CA,B,CA,B,C

      在这里插入图片描述

      数学上的矩阵相乘 C = A ×\times× B

      数学表示

      在这里插入图片描述

      程序表示

      多维矩阵:torch.matmul(A,B)

      if: A∈Rn×m,B∈Rm×nA\in R^{n\times m},B\in R^{m\times n}A∈Rn×m,B∈Rm×n

      then: torch.matmul(A, B) ∈Rn×n\in R^{n\times n}∈Rn×n

      二维矩阵相乘:torch.mm(A,B)

      # 矩阵相乘
      x = tensor([[1, 2, 3],
                  [3, 3, 4],
                  [3, 3, 3]])
      
      # torch.matmul表示矩阵的乘法
      torch.matmul(x,x)
      Out[1]: 
      tensor([[16, 17, 20],
              [24, 27, 33],
              [21, 24, 30]])
              
      # 两个维度对上就可以进行运算
      
      x = tensor([[1, 2, 3],
                  [3, 3, 4],
                  [3, 3, 3]])
                  
      y = tensor([[1, 2],
                  [3, 3],
                  [4, 4]])
      torch.matmul(x, y)
      Out[2]: 
      tensor([[19, 20],
              [28, 31],
              [24, 27]])
      
      

      数学上的矩阵对位相乘

      数学表示

      在这里插入图片描述

      程序表示

      torch.mul(A,B)

      
      # 表示矩阵对位相乘
      x = tensor([[1, 2, 3],
                  [3, 3, 4],
                  [3, 3, 3]])
      # 方法1
      x * x
      Out[3]: 
      tensor([[ 1,  4,  9],
              [ 9,  9, 16],
              [ 9,  9,  9]])
      
      # 方法2        
      torch.mul(x,x)
      Out[4]: 
      tensor([[ 1,  4,  9],
              [ 9,  9, 16],
              [ 9,  9,  9]])
      

      带有batch的三维就一阵相乘

      torch.bmm(A, B)

      A∈RB×n×mA\in R^{B\times n\times m}A∈RB×n×m,B∈RB×m×dB\in R^{B\times m\times d}B∈RB×m×d

      torch.bmm(A, B) ∈RB×n×d\in R^{B\times n\times d}∈RB×n×d

      t = tensor([[[1, 2, 3],
                   [3, 3, 4],
                   [3, 3, 3]],
                   
                  [[1, 2, 3],
                   [3, 3, 4],
                   [3, 3, 3]]])
      
      T = torch.bmm(t, t)
      T.shape
      
      Out[5]: torch.Size([2, 3, 3])
      
      T
      Out[6]: 
      tensor([[[16, 17, 20],
               [24, 27, 33],
               [21, 24, 30]],
              [[16, 17, 20],
               [24, 27, 33],
               [21, 24, 30]]])
               
               
      # 两个维度不同
      u = tensor([[[1, 2],
                   [3, 3],
                   [4, 4]],
                  [[1, 2],
                   [3, 3],
                   [4, 4]]])
      t = tensor([[[1, 2, 3],
                   [3, 3, 4],
                   [3, 3, 3]],
                  [[1, 2, 3],
                   [3, 3, 4],
                   [3, 3, 3]]])
                   
      u.shape
      Out[7]: torch.Size([2, 3, 2])
      t.shape
      Out[8]: torch.Size([2, 3, 3])
      
      torch.bmm(t, u)
      Out[9]: 
      tensor([[[19, 20],
               [28, 31],
               [24, 27]],
              [[19, 20],
               [28, 31],
               [24, 27]]])
      
      torch.bmm(t, u).shape
      Out[10]: torch.Size([2, 3, 2])
      
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 句法引导的机器阅读理解

      SG-Net: Syntax-Guided Machine Reading Comprehension

      句法引导的机器阅读理解

      1. Abstract

      对于机器阅读理解来说,从冗长的细节中有效地对语言知识进行建模和克服噪声的能力是提高机器阅读理解性能的关键。传统的注意力模型关注的是所有的词,没有明确的约束,这导致了对一些不必要的词的不准确的关注。在这项工作中,本文建议使用句法来引导passage和问题的文本建模,将显式句法约束融入注意机制,以获得更好的语言动机单词表征。为了达到这一目的,本文提出了一种新颖的双重上下文结构,称为语法引导网络(SG-Net),它由一个BERT上下文向量和一个句法引导上下文向量组成,以提供更细粒度的表示。对常用基准测试的大量实验表明,与微调的BERT基准相比,所提出的方法取得了显著的改善。

      2. Instruction

      理解句子的意义是解决许多自然语言理解(NLU)问题的先决条件,例如基于机器阅读理解(MRC)的问答。显然,这需要很好地表达一个句子的意思。

      一个人在阅读和理解句子的过程中,大多数单词都是表面上的,并且更注重关键的单词。虽然已经提出了各种注意力模型来模仿人类学习,但其中大多数,特别是全局注意力方法平等地处理一个句子中的每个单词,并注意到一个句子中的所有单词,而没有显式的修剪和事先的焦点,这将导致不准确地集中在一些可有可无的单词上。

      本文观察到,当回答较长的问题时,MRC模型的准确性降低(如5.1节所示)。通常情况下,如果文本特别冗长和细节千篇一律,深度学习模型就很难理解,因为它受到噪声的影响,对文本成分的关注很模糊,更不用说准确地回答问题了。相比之下,广泛的研究已经证实,人类通过一系列的注视和第一眼快速扫视后的扫视来高效阅读句子。

      此外,对于涉及阅读理解的文章,输入序列通常由多个句子组成。目前几乎所有的注意方法和语言模型,例如Bert,都将输入序列视为一个整体,例如一篇文章,而没有考虑每个句子内部的语言结构。这将导致由于噪声过多和每个相关单词缺乏关联跨度而导致的加工偏差。

      所有这些因素促使本文寻求一种信息性的方法,只需在句法结构线索的指导下,显式地考虑每个输入句子中相关的句法重要性词子集,就可以有选择地挑选出重要的词,从而给出更准确的注意信号,并减少长句带来的噪声影响。

      在本文中,本文用句法引导的约束来扩展自我注意机制,以捕捉每个关注词的句法相关部分。具体地说,本文采用预先训练好的依存句法分析树结构来产生句子中每个词的相关节点,即兴趣依存关系(DOI),将每个词作为一个子节点,由依存句法分析树中的所有祖先节点和它自己组成。图1中显示了一个示例。

      为了有效地适应这样的DOI信息,本文提出了一种称为句法引导网络(SG-Net)的双重语境结构,它结合了BERT语境向量和句法引导语境向量,为具有挑战性的阅读理解任务提供了更细粒度的表示。本文的评估是基于两个广泛使用的具有挑战性的MRC任务,基于跨度的SQuAD 2.0和多项选择风格的RACE。

      这是首次将句法关系作为机器阅读理解的注意指导,并提出了一个用于深度聚合的通用句法指导结构。一系列的实验和分析表明,该方法是有效的。

      3 Syntax-Guided Network

      本文的目标是设计一个有效的神经网络模型,尽可能有效地利用语言信息来进行端到端的MRC。首先提出了一般的句法制导的注意结构,建立在最近先进的BERT的基础上,然后适合于机器阅读理解任务的任务特定层。

      图2描述了模型的整个体系结构。

      使用语法引导的自我注意层将BERT嵌入转换为条件注意表示。然后,将BERT和条件注意学习的输出进行整合。最后,将得到的语法增强的表示传递给特定于任务的层以进行最终预测。

      3.1 BERT Encoder

      在BERT的实现之后,每个序列的第一个token是特殊token[CLS],并且序列由[SEP]令牌分隔。然后,BERT的输出H被馈送到提出的句法制导的关注层,以获得句法增强的表示。

      3.2 Syntax-Guided Network

      句法制导表示是通过两个步骤获得的。

      • 首先,将编码的表示传递给语法制导的自我关注层;
      • 然后将相应的输出与原始的BERT编码器输出聚合,形成语法增强的表示。

      该模型可以看作是对诸如BERT等注意语言模型的扩展,增加了一个句法制导层以包含句法依赖。它被设计成将句法树结构信息合并到多头注意机制中,以指示每个句子的标记关系,这将如下所示。

      Syntax-Guided Self Attention Layer

      在这项工作中,本文首先训练一个句法依存句法分析器来标注每个句子的依存结构,然后将其反馈到SG-Net作为标记感知注意的指导。

      为了利用句子的句法依存关系树提供的中心词和依赖词之间的关系,本文只限制单词和它的所有祖先中心词之间的注意范围。换句话说,本文希望每个词只关注句子中具有句法重要性的词,即在子词看来的祖先中心词。如图3所示,在这句话中,credit这个词不是关注整个段落中的每个单词,而是只关注它的祖先中心词Reflect和Lost以及它自己,这意味着信用的DOI包含Reflect、Lost和它自己。

      具体来说,给定输入token序列S=s1,…,snS={s_1,…,s_n}S=s1​,…,sn​,首先使用句法分析器来生成依存关系树。然后,根据依存关系树推导出每个词sis_isi​的祖先节点集PiP_iPi​。最后学习一个DIO掩码M序列,它被组织成n*n矩阵:

      显然M[i,j]=1M[i,j]=1M[i,j]=1表示token sis_isi​是sjs_jsj​的祖先节点。

      如图3所示,credit(i=4)的祖先是reflect(j=2)、losses(j=5)及其自身(j=4),因此M[4,(2,4,5)]=1M[4,(2,4,5)]=1M[4,(2,4,5)]=1和M[4,(0,1,3)]=0M[4,(0,1,3)]=0M[4,(0,1,3)]=0。

      然后,将来自Vanilla Bert的最后一层输出H投影到维度L×dk,L×dq,L×dvL\times d_k, L\times d_q, L\times d_vL×dk​,L×dq​,L×dv​的不同的键、值和查询表示中,分别表示每个头部i的Ki’K_i’Ki​’,Qi’Q_i’Qi​’,Vi’V_i’Vi​’。然后,执行点积来对具有兴趣的mask依赖性的key-value对进行 评分,以获得维度为L×LL\times LL×L的关注权重,表示为Ai’A_i’Ai​’:

      然后,所有头部的Wi′W_i^′Wi′​ 被串联并通过前馈层,随后是Gelu激活。在通过另一前馈层之后,对输出和初始表示的和应用一层归一化,以获得最终表示,表示为:

      Dual Context Aggregation

      与BERT等语言模型中的多头注意相比,本文集成了两个上下文向量来进行答案预测:

      • 直接来自BERT编码器最后一层的普通BERT上下文向量,始终关注所有单词;
      • 来自提出的句法制导层的句法制导上下文向量;

      为此,除了来自BERT编码器的传统上下文向量H=h1,…,hnH={h_1,…,h_n}H=h1​,…,hn​之外,从上面的语法制导层学习上下文向量H’=h1’,…,hn’H’={h_1’,…,h_n’}H’=h1​’,…,hn​’。

      形式上,最终模型输出H−=h−1,…,h−n\overset{-}{H}={\overset{-}{h}_1 ,…,\overset{-}{h}_n}H−=h−1​,…,h−n​的计算公式为:

      3.3 Task-specific Adaptation

      本文重点研究了两种类型的阅读理解任务,跨度阅读理解任务和多项选择式阅读理解任务,它们分别可以描述为<P,Q,A>或<P,Q,C,A>,其中P是一篇文章(上下文),Q是对P的内容的查询,其中跨度或选择C是正确答案A。

      本文的系统不仅应该预测段落P中的开始和结束位置,并提取SPAN作为答案A,而且当问题无法回答时,还返回空字符串。对于多项选择题,该模型在种族数据集上实现,要求从一组候选答案中根据给定的段落和问题选择正确的答案。

      在这里,本文建立了这两个任务的模型,并根据特定的任务将语法制导网络的输出反馈到任务层。给定专门针对种族的段落P、问题Q和选项C,本文将BERT的输入X组织为以下两个序列。

      该序列被馈送到上面提到的ERT编码器以获得上下文表示H,然后该H被传递到本文提出的语法制导的自我关注层和聚合层以获得最终的语法增强的表示H−\overset{-}{H}H−。

      为保持简单性,下游任务特定层基本上遵循BERT的实现。本文在下面概述,以保持本文模型体系结构的完整性。

      对于基于跨度的任务,本文将H−\overset{-}{H}H−馈入线性层,并通过Softmax获得开始和结束位置上的概率分布。

      对于多项选择任务,本文将其输入到分类器中来预测多项选择模型的选择标签。

      SQuAD 2.0

      对于 SQuAD 2.0,本文的目标是答案文本的跨度,因此本文使用带有SoftMax运算的线性层,并将 作为输入,以获得开始和结束概率s和e:

      本文SQuAD模型的训练目标被定义为开始和结束预测的交叉熵损失,

      对于预测,给定输出开始和结束概率s和e,本文计算有答案分数Score和无答案分数Score:

      本文得到有答案分数和无答案分数之差作为最终分数。设置阈值δ来确定问题是否可回答,该阈值是根据开发集在线性时间内用动态规划启发式计算的。如果最终分数高于阈值,该模型预测给出Has-Answer分数的答案跨度,否则预测空字符串。

      RACE

      选择H中的第一个令牌表示H0,并将其传递给前馈层以给出预测p。对于具有n个选择候选的每个实例,本文根据训练期间的交叉点损失来更新模型参数,并在测试时选择概率最高的一个作为预测。本文RACE模式的训练目标被定义为,

      其中,pip_ipi​表示预测,yiy_iyi​表示目标,i表示数据索引。

      4 Experiments

      4.2 Main Results

      5 Discussions

      5.1 Effect of Answering Long Questions

      本文观察到,当遇到较长的问题时,基线的性能会大幅下降,特别是对于那些超过20个单词的问题,而本文提出的SG-Net工作得很好,甚至显示出准确率和长度之间的正相关。这表明,与基线相比,通过语法增强的表示,本文的模型更能处理冗长的问题。

      5.2 Visualization

      在句法引导下,问题中的关键字名称、立法和1850被突出显示,文章中的密苏里和妥协也得到了高度关注,这正是正确的答案。可视化实验证明,得益于句法制导的关注层,本文的模型能够有效地选择关键部分,引导下游层收集更多的相关片段进行预测。

      5.3 Dual Context Mechanism Evaluation

      在SG-Net中,本文将句法制导的关注层和普通的自我关注层的表示整合在双重上下文层中。为了揭示每个潜在组件的贡献,本文在基线上与以下各项进行比较:

      1. 仅VAnilla注意,在BERT输出之后增加一个额外的香草BERT关注层。
      2. 仅句法制导注意,在BERT输出之后增加额外的句法制导层。
      3. 如第3.2节所述,SG-Net最终采用双重上下文注意。

      表3显示了结果。

      本文观察到,双重上下文注意会产生最佳的表现。增加额外的关注并不会带来任何进展,这表明引入更多的参数不会促进强大的基线。句法引导的注意也是微不足道的,因为它在计算注意时只考虑了与句法相关的部分,这是对传统注意机制的补充,具有更多的噪声但更多样化的信息,最终激励了双重上下文层的设计。实际上,除了双重聚合之外,还有其他操作可以合并双重上下文层的表征,如拼接和双向注意,我们的比较也涉及到这两种操作,本文的实验表明,使用双重语境注意可以产生最好的结果。

      6. 启示

      1. 本文将句法分析融入到自注意力中,称为句法引导的注意力,创新点很好,最近正在实现这种方法。
      2. 对于特征融合来说,还是相加的效果好于拼接和注意力。
      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 用于实体和关系抽取的封装式悬空标记

      Packed Levitated Marker for Entity and Relation Extraction

      用于实体和关系抽取的封装式悬空标记

      1. Abstract

      最近的实体和关系提取工作主要集中在研究如何从预先训练的编码器中获得更好的跨度表示。然而,现有工作的一个主要局限性是它们忽略了跨度(对)之间的相互关系。本文提出了一种新的跨度表示方法,称为填充悬浮标记(PL-Marker),通过在编码器中策略性地包装token来考虑跨度(对)之间的相互关系。特别是,本文提出了一种面向邻域的布局策略,该策略综合考虑了邻域跨度,以更好地对实体边界信息进行建模。此外,对于较复杂的跨度对分类任务,本文设计了一种面向subject的打包策略,将每个subject及其所有object打包,以建模相同subject跨度对之间的相互关系。实验结果表明,利用增强的标记特征,本文的模型在6个NER基准上提升了基线,在ACE04和ACE05上获得了4.1%-4.3%的严格关系F1改进,并且速度更快。

      2. Instruction

      三种SPAN表示提取方法被广泛使用:(1)T-Concat将SPAN的边界(开始和结束)标记的表示连接起来,以获得SPAN表示。它在token级收集信息,但在跨度的边界标记通过网络时忽略它们之间的连接;(2)Solid Marker明确地在跨度前后插入两个实心标记,以在输入文本中突出显示该跨度。并插入两对标记来定位跨度对中的subject和object。然而,该方法不能同时处理多个跨距对,因为它在从序列中的多于两对标记中指定跨距对的固体标记方面存在弱点。(3)Levitated Marker悬浮标记首先设置一对悬浮标记与跨度的边界标记处于同一位置,然后通过定向注意将一对标记捆绑在一起。具体地说,一对内的标记被设置为在注意掩码矩阵中彼此可见,但对文本标记和其他标记对不可见。现有的工作简单地将固体标记替换为悬浮标记以实现高效的批处理计算,但牺牲了模型的性能。

      在这项工作中,本文引入了包装悬浮标记(PL-Marker),通过在编码阶段策略性地包装悬浮标记来建模跨度(对)之间的相互关系。将悬浮标记打包在一起用于跨度分类任务的一个关键挑战是,插入的悬浮标记的数量增加将平方地加剧PLM的复杂性。因此,为了提高速度和可行性,本文必须将跨度分成几组来控制每个输入序列的长度。在这种情况下,有必要整体考虑相邻跨度,这可以帮助模型比较相邻跨度,例如具有相同开始token的跨度,以获得更精确的实体边界。因此,本文提出了一种面向邻域的打包策略,将具有相同起始token的跨度尽可能地打包到一个训练实例中,以更好地区分实体边界。

      对于较复杂的跨度对分类任务,理想的包装方案是将所有跨度对与多对悬浮标记打包在一起,对所有跨度对进行整体建模。然而,由于每一对悬浮标记已经被定向注意捆绑在一起,如果本文继续应用定向注意来绑定两对标记,悬浮标记将无法识别相同跨度的伙伴标记。因此,本文采用了固体标记物和悬浮标记物的融合,并使用面向subject的打包策略对subject及其所有相关object进行整体建模。具体地说,本文用固体标记物强调subject跨度,并用悬浮标记物包装其所有候选object跨度。此外,本文应用了面向subject的包装策略来实现完整的双向建模。

      本文考察了PL-Marker在两个典型的跨度(对)分类任务NER和End-to-End RE上的效果。实验结果表明,面向邻域布局的PL-Marker在NER上的性能明显好于随机布局的模型,说明了综合考虑邻域跨度的必要性。并在6个NER基准上提出了TConcat模型,验证了SPAN标记获取特征的有效性。此外,与现有的RE模型相比,本文的模型在ACE04和ACE05上获得了4.1%-4.3%的严格关系F1改进,并且在SciERC上也取得了更好的性能,这表明了考虑面向subject的跨度对之间的相互关系的重要性。

      3 Method

      3.1 Background: Levitated Marker

      悬浮标记被用作固体标记的近似,它允许模型同时对多对实体进行分类,以加快推理过程。与跨度相关联的一对悬浮标记由开始token标记和结束token标记组成。这两个标记与相应跨度的开始和结束标记共享相同的嵌入位置,同时保持原始文本标记的位置ID不变。为了并行地指定多对悬浮标记,应用了定向注意掩码矩阵。具体地说,每个悬浮标记对于注意掩码矩阵中成对的其伙伴标记是可见的,但对于文本标记和其他悬浮标记不可见。同时,悬浮标记器能够关注文本标记以聚集其关联跨度的信息。

      3.2 Neighborhood-oriented Packing for Span

      得益于悬浮标记器的并行性,本文可以灵活地将一系列相关跨度打包成一个训练实例。在实践中,本文将多个关联的悬浮标记附加到输入序列中,以对每个跨度进行全面的建模。

      然而,即使实体长度受到限制,一些跨度分类任务仍然包含大量的候选跨度。因此,本文必须将标记分成几个批次,以使模型在实践中具有更高的速度和可行性。为了更好地模拟具有相同起始token的跨度之间的连接,本文采用了面向邻域的打包方案。如图2所示,本文首先对悬浮标记对进行排序,将开始标记的位置作为第一个关键字,结束标记的位置作为第二个关键字。之后,本文将它们分成大小最大为K的组,从而将相邻的跨度聚集到同一组中。本文将每组标记打包,并在多次运行中分散处理它们。

      形式上,给定N个文本标记的序列,X=x1,…,xNX={x_1,…,x_N}X=x1​,…,xN​和最大跨度长度L,本文将候选跨度集定义为S(X)=(1,1),…,(1,L),…,(N,N−L),…,(N,N)S(X)={(1,1),…,(1,L),…,(N,N-L),…,(N,N)}S(X)=(1,1),…,(1,L),…,(N,N−L),…,(N,N)。本文首先按顺序将S(X)分成直到K大小的多个组。例如,本文将K个跨度(1,1),(1,2),…,(KL,K−K−1L∗L){(1,1),(1,2),…,(\frac{K}{L},K-\frac{K-1}{L}*L)}(1,1),(1,2),…,(LK​,K−LK−1​∗L)聚集到组S1S_1S1​中。

      本文将一对悬浮标记与S1S_1S1​中的每个跨度相关联。然后,本文将文本token和插入的悬浮标记的组合序列提供给PLM(例如BERT)以获得开始token标记H(s)=hi(s)H^{(s)}={h_i^{(s)}}H(s)=hi(s)​和结束token标记H(e)=hi(e)H^{(e)}={h_i^{(e)}}H(e)=hi(e)​的上下文表示。这里,$H^{(s)}与跨度H^{(e)}相关联,本文得到其跨度表示:

      其中[A;B]表示向量A和B上的串联运算。

      例如,本文将悬浮标记应用于一个典型的重叠跨度分类任务NER,该任务旨在为句子中的每个可能的跨度分配一个实体类型或一个非实体类型。本文通过填充的悬浮标记从PLM中获得跨度表示,然后结合PL-Marker和T-Concat的特征来更好地预测候选跨度的实体类型。

      3.3 Subject-oriented Packing for Span Pair

      为了获得跨度对表征,一种可行的方法是采用悬浮标记来同时强调一系列主object跨度。通常,每一对悬浮标记都被定向注意捆绑在一起。但如果本文继续应用定向注意来绑定两对标记,悬浮的标记将无法识别相同跨度的伙伴标记。因此,如图2所示,本文的跨度对模型采用了面向融合subject的打包方案,为相同的subject跨度提供了一个完整的建模。

      形式上,给定输入序列X,主语跨度si=(a,b)s_i=(a,b)si​=(a,b)及其候选宾语跨度(c1,d1),(c2,d2),…,(cm,dm)(c_1,d_1),(c_2,d_2),…,(c_m,d_m)(c1​,d1​),(c2​,d2​),…,(cm​,dm​),本文在主语跨度前后插入一对实心标记[S]和[/S]。
      然后,本文将悬浮标记[O]和[/O]应用到所有候选object跨度,并将它们打包成一个实例。让X∧\overset{\wedge}{X}X∧表示此修改

      其中由符号∪连接的token共享相同的位置嵌入。本文在X∧\overset{\wedge}{X}X∧上应用预先训练的编码器,最终得到si=(a,b)andsj=(c,d)s_i=(a,b) and s_j=(c,d)si​=(a,b)andsj​=(c,d)的跨度对表示:

      其中[;]表示串联操作。ha−1andhb+1h_{a-1} and h_{b+1}ha−1​andhb+1​表示用于sis_isi​的插入的实心标记的上下文表示;hc(s)andhd(e)h_c^{(s)} and h_d^{(e)}hc(s)​andhd(e)​是用于sjs_jsj​的插入的悬浮标记的上下文表示。

      与分别在subject和object上使用两对固体标记物的方法相比,本文的融合标记物方案用悬浮标记物代替了固体标记物,这在一定程度上会影响对object跨度的强调。为了提供补充信息,本文引入了从object到主语的反向关系来进行双向预测。例如,本文在一个典型的SPAN对分类任务-端到端RE上对本文的模型进行了评估,该任务集中于识别所有SPAN对是否相关以及它们的关系类型。本文首先使用NER模型对候选实体跨度进行过滤,然后得到过滤后实体跨度对的跨度对表示,以预测它们之间的关系。此外,为了建立实体类型和关系类型之间的联系,本文增加了一个辅助损失来预测object实体的类型。

      3.4 Complexity Analysis

      在大型前馈网络的主导下,PLM的计算量几乎随着小序列长度的增加而线性上升。逐渐地,随着序列长度的继续增长,由于自我注意模块,计算呈二次曲线扩大。显然,悬浮标记的插入延长了输入序列的长度。对于跨度对分类任务,候选跨度数相对较少,因此增加的计算量有限。对于跨度分类任务,本文将tokens分成几个批次,这样可以将序列长度控制在复杂度近似线性增加的区间内。对于NER,本文列举了一个小句子中的候选跨度,然后利用它的上下文词将句子扩展到512个标记词,在实践中,一个句子中候选跨度的数量通常少于上下文长度。因此,在包装群数目较少的情况下,PL-Marker的复杂性仍然与以前的模型的复杂性接近线性。

      此外,为了进一步降低推理成本,本文采用了PL-Marker作为两阶段模型的后处理模块,用于从一个更简单、更快的模型提出的少量候选实体中识别实体。

      4 Experiment

      4.2 Named Entity Recognition

      4.2.1 Results

      本文在表2中显示了平面NER结果,在表3的Ent列中显示了嵌套的NER结果。

      实验结果表明:

      1. 在三个平坦的NER数据集上,基于邻域布局策略的模型性能均优于采用随机布局策略的模型,尤其是对Few-NERD的性能提高了9.4%。Few-NERD包含更长的句子,因此平均包含325个候选跨度,而CoNLL03和OntoNotes5.0分别仅包含90个和174个候选跨度。结果表明,面向邻域的打包策略能够很好地处理句子较长、标记组较多的数据集,较好地模拟了邻域跨度之间的相互关系。
      2. 在使用相同的大型预训练编码器的情况下,PL-Marker在所有六个NER基准测试中的F1绝对值比T-Concat提高了+0.1%-1.1%,这表明了悬浮式标记器在聚合跨度表示实体类型预测方面的优势。
      3. 在CoNLL03、OntoNote 5.0和Low-Nerd中,PL-Marker的绝对F1分别比SeqTagger高+0.4%、+0.7%和+1.9%,其中CoNL03、OntoNote 5.0和Low-Nerd分别包含4、18和66种实体类型。这些改进证明了PL-Marker在处理不同类型实体之间的不同相互关系方面的有效性。

      4.3 Relation Extraction

      4.3.1 Results

      如表3所示,使用相同的BERT-BASE编码器,本文的方法比以前的方法在ACE05上的F1严格提高了1.7%,在ACE04上的F1值严格提高了2.5%。

      使用SciBERT编码器,本文的方法在SciERC上也实现了最佳性能。使用更大的编码器ALBERT-XXLARGE,本文的NER和RE模型都得到了进一步的改进。与之前最先进的模型PURE(FULL)相比,本文的模型分别在ACE05和ACE04上获得了显著的+4.1%和+4.3%的严格关系F1改进。这些相对于PURE的改进表明了在训练过程中对相同subject或相同object实体对之间的相互关系进行建模的有效性。

      4.4 Inference Speed

      在这一部分中,本文比较了模型在批处理大小为32的A100 GPU上的推理速度。本文在实验中使用了用于ACE05和SciERC的基本尺寸编码器和用于平板NER模型的大尺寸编码器。

      4.4.1 Speed of Span Model

      在CoNLL03和FewNERD上评估了不同组大小的PL-Marker的推理速度。本文还评估了一个级联两阶段模型,它使用一个快速的基本大小的T-Concat模型来为本文的模型过滤候选跨度。如表4所示,与CoNLL03相比,PL-Marker实现了0.4F1的改进,但与SeqTagger模型相比,速度损失了60%。

      本文观察到,本文提出的两阶段模型与PL-Marker的性能相似,在少数人上的加速比为3.1倍,这表明使用PL-Marker作为后处理模块来阐述简单模型中的粗略预测是更有效的。此外,当团队规模增长到512时,由于transformer的复杂性增加,PLMarker的速度会变慢。因此,在实践中,本文选择256个组大小。

      4.5 Case Study

      本文给出了几个例子来比较本文的SPAN模型和T-CONCAT,以及本文的SPAN对模型和纯(FULL)模型。如表6所示,本文的SPAN模型可以收集加下划线的SPAN的上下文信息,如台湾和大陆,帮助预测其类型为组织而不是艺术品。本文的SPAN模型学习在训练阶段综合考虑同一subject关系事实之间的相互关系,从而成功地获得利亚娜和她的父母都在曼哈顿的事实。

      4.6 Ablation Study

      在这一部分,本文进行消融研究,以调查不同的组件对本文的RE模型的贡献,其中本文在实验中使用了基本尺寸编码器。

      Two pairs of Levitated Markers

      本文评估了w/o实体标记基线,它将两对悬浮标记分别应用于subject和object,并将所有跨度对打包到一个实例中。如表7所示,与PL-Marker相比,当给出黄金实体时,没有可靠标记的模型在ACE05和SciERC上的F1下降了2.0%-3.8%。

      结果表明,由于一对悬浮标记已经被定向注意捆绑,因此继续应用定向注意捆绑两对悬浮标记是次优的。

      Inverse Relation逆关系

      本文为双向预测的每个不对称关系建立一个逆关系。本文对没有逆关系的模型进行了评估,该模型用非关系类型代替了所构造的逆关系,并采用了单向预测。如表7所示,在给定黄金实体的情况下,没有反向关系的模型在两个数据集上都下降了0.9%-1.1%F1,这表明了在本文的非对称框架中对从object实体到subject实体的信息建模的重要性。

      Entity Type

      在RE模型中加入辅助实体类型损失,引入实体类型信息。如表7所示,当给定黄金实体时,没有实体类型损失的模型在两个数据集上都下降了0.4%-0.7%的F1,这表明了实体类型信息在RE中的重要性。此外,本文还尝试使用类型标记,如[subject:PER]和[object:GPE],将NER模型预测的实体类型信息注入到RE模型中。

      本文发现,在端到端设置中,带有类型标记的RE模型的性能略逊于具有实体类型丢失的模型。结果表明,如果采用类型标记符作为输入特征,则NER模型的实体类型预测误差可以传播到RE模型。最后,本文讨论了何时使用RE模型中的实体类型预测来细化附录中的NER预测,并根据ACE04和ACE05的数据集统计数据最终细化了除SciERC之外的ACE04和ACE05的实体类型。

      5 启示

      1. 在大环境都是联合抽取的情况下,陈丹琪大佬提出了流水线方法,这篇文章是其升级版。
      2. 由于计算了所有可能的span,因此时间复杂度比较高,作者也提出了方法缓解这个问题,由于没有复现代码,因此不敢评论时间复杂度如何。
      3. 在实体和关系抽取上的表现出奇的高,有兴趣的可以尝试继续做下去。
      4. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 面向方面情感分析的双句法感知图注意网络

      BiSyn-GAT+: Bi-Syntax Aware Graph Attention Network for Aspect-based Sentiment Analysis

      面向方面情感分析的双句法感知图注意网络

      Abstract

      基于方面的情感分析(ABSA)是一种细粒度的情感分析任务,旨在将方面与相应的情感进行对齐,以进行特定方面的情感极性推理。这是具有挑战性的,因为一个句子可能包含多个方面或复杂的(例如,条件、并列或转折)关系。近年来,利用图神经网络挖掘依存句法信息已成为最流行的趋势。尽管依赖于依赖关系树的方法取得了成功,但由于依赖关系树可能提供不相关关联的噪声信号(例如,图2中“great”和“dreadful”之间的“conj”关系),因此严重依赖于依赖关系树的方法在准确建模方面及其指示情绪的词语的对齐方面提出了挑战。

      为了缓解这一问题,我们提出了一种双句法感知图注意网络(BiSyn-GAT+)。具体地,BiSyn-GAT+充分利用句子组成树的句法信息(例如,短语切分和层次结构) 来建模每个单个方面的情感感知上下文(称为上下文内)和跨方面的情感关系(称为上下文间)用于学习。在四个基准数据集上的实验表明,BiSyn-GAT+的性能一致优于最先进的方法。

      1. Instruction

      通常,将方面术语链接到句法上相关的词的依存关系树(即,依赖树)在长距离依存关系问题中保持有效。然而,Dep.Tree结构的固有性质可能会引入噪声,如图2中“great”和“dreadful”之间的不相关关系,这阻碍了捕获每个方面的情感感知上下文,即上下文内。

      此外,Dep.Tree结构仅揭示了词之间的关系,因此在大多数情况下无法建模句子的复杂关系(例如,条件关系、并列关系或反语关系) ,因此无法捕获方面之间的情感关系,即上下文之间的关系。

      因此,在本文中,作者考虑充分利用构成树 的语法信息来解决这个问题。

      • 通常,构成树(即Con.Tree)通常包含精确的区分短语切分和层次组成结构,这有助于正确对齐表示情感的方面及其对应的词。
      • 前者可以自然地将一个复杂的句子分成多个小句,后者可以区分不同的体之间的不同关系,从而推断不同体之间的情感关系。

      本文用图3中的一个例子来说明这一点:

      1. 从句“The food is great”和“服务和环境很糟糕”被短语分割术语“但是”分割;
      2. 在第一层中,术语“and”表示“服务”和“环境”的协调关系,而在第三层中,术语“but”反映了对“食物”和“服务”(或“环境”)的否定关系。

      因此,为了更好地对齐体术语和相应的情感,本文提出了一个新的框架,双句法感知图注意网络(BiSyn-GAT+),通过对上下文内和上下文间信息进行建模,有效地利用组成树的语法信息。

      1. 基于同一小句内的融合语法信息,以自底向上的方式嵌入的语法图对每个方面的内上下文进行编码,将其组成树的短语级语法信息与其依存关系树的小句级语法信息相结合。
      2. 由短语切分术语和所有方面组成的方面-上下文图,用于对每个方面的相互上下文进行建模。
      3. 具体地说,它根据当前方面与其相邻方面之间的影响来聚合其他方面的情感信息,该影响分别基于从方面上下文图上的双向关系中学习的方面表示来计算。

      主要贡献如下:

      1. 这是首次使用GNN为ABSA利用构成树的语法信息(如短语切分和层次结构)。此外,它在方面与对应的情感词之间的对齐上也显示出优越性。
      2. 提出了一种双向句法感知图注意网络框架(BiSyn-GAT+),通过对每个方面的情感感知上下文和跨方面的情感关系进行建模,充分利用组成树(或依赖树)的语法信息。
      3. 在四个数据集上的大量实验表明,本文提出的模型达到了最好的性能。

      2Methodology

      2.1 Overview

      2.1.1 Problem Statement.

      设s=wins={w_i}_ns=wi​n​ and A=ajmA={a_j}_mA=aj​m​是一个句子和一个预定义的方面集,其中n和m分别表示s中的词数和A中方面词的个数。对于每个s,As=ai∣ai∈A,ai∈sA_s={a_i|a_i\in A,a_i\in s}As​=ai​∣ai​∈A,ai​∈s表示包含在s中的方面词。

      2.1.2 Architecture

      本文提出的体系结构将句子和文本中出现的所有方面词作为输入,并输出这些方面的情感预测。

      包含三个组件:

      1. 上下文内模块对输入wi{w_i}wi​进行编码以获得目标方面的方面特定表示,
      • 其包含两个编码器:输出上下文词表示的上下文编码器和利用所解析的构成树(或和依存关系树)的句法信息的句法编码器。
      1. 上下文间模块包括应用于所构建的方面-上下文图以输出关系增强的表示的关系编码器。
      • 方面-上下文图组成从应用于构成树的所设计的基于规则的映射函数获得的给定句子和短语分词的所有方面。
      1. 情感分类器采用上述两个模块的输出表示进行预测。

      2.2 Intra-Context Module 上下文内模块

      在这一部分中,本文利用上下文编码器和语法编码器对每个方面的情感感知上下文进行建模,并为每个方面生成特定于方面的表示。注意,对于多个方面的句子,多次使用这个模块,因为每次都涉及一个方面。

      2.2.1 Context Encoder

      使用BERT来生成上下文表示:

      然后,通过以下方式获得输出表示:

      n’n’n’ and m’m’m’分别是BERT标记器之后的输入文本和目标方面的长度,h0th_0^th0t​ 是表示BERT序列的“BERT池化”向量,hith_i^thit​ 是每个token的上下文表示。

      注意,wiw_iwi​ 可以由BERT标记器分割成多个子词。因此,按如下方式计算wiw_iwi​ 的上下文表示,

      其中,BertT(wi)BertT(w_i)BertT(wi​)返回BERT序列中wiw_iwi​ 的子词的索引集,||返回其长度。

      2.2.2 Syntax Encoder

      由于上述表示只考虑了语义信息,因此作者提出了一种利用丰富的语法信息的句法编码器。

      语法编码器由几个设计的层次图注意(HGAT)块堆叠而成,每个块由多个图关注层(即GAT层)组成,这些层在组成树(或和依存关系树)的指导下对语法信息进行分层编码。关键是构造相应的图。

      2.2.2.1 Graph construction

      如图4所示,作者以自下而上的方式遵循Con.Tree的语法结构。Con.Tree的每一层l由几个短语组成phul{ph_u^l}phul​它们组成了输入文本,每个短语代表一个单独的语义单位。

      例如,ph3{ph^3}ph3在图3中是{食物很棒,但服务和环境都很糟糕 The food is great, but, the service and the environment are dreadful}。基于这些短语,我们构造了相应的图。即,对于由短语phul{ph_u^l}phul​组成的层l,我们构造显示单词连接的邻接矩阵CA:

      它在图5中被例示为Con.Graphs。

      2.2.2.2 HGAT block

      HGAT块旨在将语法信息分层地编码到单词表示中。

      如图5所示,HGAT块由几个GAT层堆叠而成,这些层利用mask的自我注意机制从邻居那里聚集信息,并使用完全连接的前馈网络将表示映射到相同的语义空间。注意机制可以处理邻居的多样性,赋予更多相关词更高的权重。它可以表述如下:

      其中Nl(i)N^l(i)Nl(i)是wiw_iwi​在层lll中的邻域集合,g∧it,l\overset{\wedge}{g}_i^{t,l}g∧​it,l​是wiw_iwi​在层lll中的最终表示,FC是全连接前馈网络。g∧it,l\overset{\wedge}{g}_i^{t,l}g∧​it,l​是mask自注意力机制后的wiw_iwi​表征。||表示向量连接。Z表示注意头数。堆叠的HGAT块以第一个块的输出为输入,第一个HGAT块的输入为h∧t\overset{\wedge}{h}^th∧t。为了简单基建,语义编码器的输出定义为:g∧t\overset{\wedge}{g}^tg∧​t。

      2.2.2.3 With dependency information

      作者还探讨了两种句法信息的融合。在前人工作的基础上,将Dep.Tree看作一个无向图,并构造了邻接矩阵DA,其公式如下:

      A. position-wise dot.

      对于Con.Tree的每一层,此操作仅考虑Dep.Tree的邻居,这些邻居也在相同的短语中。

      B. position-wise add

      对于Con.Tree的每一层,此操作都会考虑Dep.Tree的相同短语和邻居中的单词。Dep.Tree的一些边可以缩短方面词和相关观点词之间的路径,例如图3中的“Food”和“Great”。

      C. conditional position-wise add

      该操作考虑了Con.Tree的短语级语法信息和Dep.Tree的子句级语法信息。具体地说,它首先删除跨越子句的所有依赖边(例如,图2中“Great”和“deradful”之间的边),然后对剩余的依赖边执行位置相加操作。

      因此,上下文内模块的输出包含上下文信息和语法信息,其表示如下,

      2.3 Inter-Context Module

      上下文内模块忽略了方面之间的相互影响。因此,在跨上下文模块中,作者构造了一个方面-上下文图来对跨方面的关系进行建模。该模块只适用于多个方面的句子,以来自上下文内模块的所有方面的特定方面表示作为输入,并输出每个方面的关系增强的表示。

      Phrase segmentation.

      方面关系可以通过一些短语切分术语来揭示,比如连词。因此,作者设计了一个基于规则的映射函数PS,它返回两个方面的短语切分条件:

      • 给定两个方面,它首先在Con.Tree中找到它们的最低共同祖先(LCA),它包含两个方面的信息,具有最少的无关上下文。
      • 本文将LCA中两个方面分别位于其中的子树之间的分支称为“内部分支”。PS返回内部分支中的所有文本单词(如果存在);否则,它返回输入文本的两个方面之间的单词。它的表述如下,

      Aspect-context graph construction

      作者注意到,一个方面的影响范围应该是连续的,并且方面之间的相互影响随着距离的增加而减弱。考虑到所有的宽高比对,引入了长距离噪声,增加了计算开销。因此,本文只对相邻方面的关系进行建模。

      在利用PS函数提取相邻体的短语segmentation术语后,通过将segmentation与相应的phrase segmentation术语相关联来构建方面-上下文图,以帮助推断关系。

      为了区分aspect-context图上的双向关系,本文构造了两个对应的邻接矩阵。

      • 第一个处理的是句子所有方面中单数标的方面对相邻偶数标的方面的影响;
      • 第二个处理的是相反的影响。

      图6给出了一个例子。

      然后,以vast,t∈As{v_a^st,t\in A_s}vas​t,t∈As​和BERT编码的相应短语切分术语表示为输入,将上述HGAT块用作关系编码器,以获得每个方面ata_tat​ 的关系增强表示vtaav_t^aavta​a 。

      2.4 Training

      上下文内模块和上下文间模块的输出被组合以形成最终表示,该最终表示稍后被馈送到具有SoftMax激活函数的完全连接层(即,情感分类器),从而生成关于三种情感极性的概率:

      损失定义为所有(句子、方面)对的gold 极性标签和预测的极性分布之间的交叉熵损失:

      其中,ata_tat​ 是特征,也是s中的第t个字,损耗是标准的交叉熵损耗,θ表示模型参数。

      3. Experiment

      3.1 Main Results

      通过表格观察结果是:

      1. 作者提出的模型优于大多数基线,作者的完整模型BiSyn-GAT+在所有数据集上都实现了最先进的性能,特别是在Restaurant和MAMS上的1.27和1.75 F1改进。
      2. 有句法信息的模型优于没有句法信息的模型,这意味着句法结构是有帮助的。
      3. 与仅使用依赖关系信息的模型相比,本文的模型显示出更大的优势,这意味着组成树可以提供有益的信息。
      4. 与BiSyn-GAT相比,BiSyn-GAT+表现出一致的改进,这意味着建模体-方面关系可以提高性能,特别是当有更多的多方面句子可用时,例如,在Restaurant和MAMS上的0.8和1.06 F1改进。

      3.2 Ablation Study

      本文将模型的上下文编码器设置为基础模型,即BERT+。研究发现:

      1. BERT+的成绩最低,这说明语法信息对ABSA任务有帮助。
      2. 在没有AA的类别中,没有CON。不如w/o dep,这意味着con.Tree的语法信息很有用。此外,还对W/O CON进行了比较。和con.×dep.。验证与短语交叉的某些依赖边是否确实带来噪声,因为前者考虑所有依赖边,而后者忽略从Con.Tree获得的每层短语的依赖边。
      3. 以适当的方式融合两种语法信息可以提高性能。

      4. 启示

      1. 构建了小句子级别的依赖树,想法很好,但是还要构建特征工程,感觉太麻烦了。
      2. 几个图画的确实漂亮。
      3. 对于GAT模型和小句子依赖树,可以尝试用到其他领域。
      4. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 基于选择性注意的图卷积网络用于方面级情感分类

      Selective Attention Based Graph Convolutional Networks for Aspect-Level Sentiment Classification

      基于选择性注意的图卷积网络用于方面级情感分类

      Abstract

      方面级情感分析的目的是识别句子中某一特定aspect词语的情感极性。最近的方法通过使用依赖树上的GCN来获得aspect terms的语法感知表示,并学习aspect和上下词之间的交互。GCNs通常在两层的情况下获得最佳性能,更深的GCNs不会带来任何额外的收益。然而,在某些情况下,在依存树上的两跳内不能到达方面术语的对应意见词。因此,本文设计了一种新的基于选择性注意的GCN(SA-GCN)来处理方面词和观点次较远的情况。由于观点词是对aspect-term极性分析的直接解释,因此本文将观点抽取作为辅助任务来辅助情感分析任务。具体地说,在对依赖关系树进行操作的GCN模型的基础上,本文使用自注意力机制直接为句子中的每个单词选择注意力得分最高的k个单词。然后,在生成的前k个关注图上应用另一个GCN来整合来自所选上下文的信息。

      1. Introduction

      最近的研究表明,方面术语与其上下文(包括观点词)之间的相互作用对于识别对给定术语的情感极性至关重要。大多数研究方法都考虑了来自语境词的语义信息,并利用注意机制来学习这种互动。然而,研究表明,从依存句法分析中获得的句法信息在捕捉表面形式模糊的长程句法关系方面非常有效。最近流行的一种学习句法表示的方法是在依存关系树上使用图卷积网络模型,这允许以句法方式在方面词语及其上下文词之间传递消息。

      在某些情况下,最重要的上下文词,即意见词,距离依存关系树上的方面词语超过两跳,如Figure 1所示(目标Mac OS和依赖关系树上的意见词Easy Pick之间有四个跳跃。):

      为了解决上述问题,本文提出了一种新的基于选择性注意的GCN模型(SA-GCN),该模型结合了依赖树上的GCN模型和基于自我注意的序列模型。

      • 自我注意序列模型实现了方面词与其意见词之间的直接交互,从而能够处理依存关系树上该词与意见词相距较远的情况。

      具体来说,基本模型是依存关系树上的GCN模型,它应用预先训练的BERT作为编码器,获得方面词及其上下文词的表示,作为依存关系树上的初始节点特征。该模型考虑了目标及其在依存关系树上的句法邻居之间的联系。

      接下来,GCN输出被馈送到top-k多头注意力选择模块。

      • 对于每个头部,根据注意力得分矩阵选择前k个重要的上下文词。
      • 这一选择步骤有效地从方面项的上下文中移除了噪声和不相关的词。
      • 然后在选择的代表新图的注意力得分矩阵之上,我们再次应用GCN层来整合来自TOPK重要上下文词的信息。

      因此,最终的方面词表示集成了来自BERT的语义表示、来自依存关系树的句法信息以及来自句子序列的top-k参与的上下文单词。然后,该表示被馈送到最终分类层以进行情感预测。

      为了进一步加强了情感分类的训练,并辅以意见抽取任务。直觉,将观点词定位为体词有助于情感极性的预测。如图1所示,如果正确地检测到意见词“容易拾取”,它肯定可以帮助模型将情绪分类为积极的。事实上,top-k选择模块就是为了找到这样的观点词而设计的。因此,本文进一步引入了意见词抽取任务,为top-k评选过程提供监督信息。具体地,将SA-GCN的输出直接馈送到CRF解码层,并联合训练情感分类和观点提取任务。

      贡献:

      • 提出了一种基于选择性注意的GCN模块(SAGCN),该模块利用GCN相对于依赖树的优势,使方面词能够根据最相关的上下文词直接从观点词中获取信息。这有助于模型处理当方面术语和意见词在依存关系树上彼此远离时的情况。
      • 提出联合训练情感分类和意见抽取任务。联合训练进一步提高了分类任务的性能,并为情感预测提供了解释。
      • 在四个基准数据集上进行了实验,包括来自SemEval 2014任务4的笔记本电脑和餐厅评论,来自SemEval 2015任务12和SemEval2016任务5的餐厅评论,SAGCN获得了新的最先进的结果。

      2 Proposed Model

      2.1 Overview of the Model

      意见提取任务旨在预测标签序列yo=[y1,…,yn]y_o=[y_1,…,y_n]yo​=[y1​,…,yn​](yi∈B,I,Oy_i\in {B,I,O}yi​∈B,I,O)。

      对于构成句-词对的每个实例,句子中除方面词之外的所有词都被定义为上下文词。

      2.2 Encoder for Aspect Term and Context

      本文使用BERT作为编码器来获得句子的词嵌入。假设一个句子由n个单词w1,…,xτ,wτ+1,…wτ+m,…,wn{w_1,…,x_\tau,w_{\tau+1},…w_{\tau +m},…,w_n}w1​,…,xτ​,wτ+1​,…wτ+m​,…,wn​组成,其中wτ,wτ+1,…,wτ+m−1{w_{\tau},w_{\tau +1},…,w_{\tau +m-1}}wτ​,wτ+1​,…,wτ+m−1​表示包含m个单词的aspect term。

      将其处理成"[CLS] + Sentence + [SEP] + term + [SEP]",并将其提供给BERT。该输入格式使得能够在整个句子和术语之间进行显示交互,从而获得的单词表示是term相关的。然后,使用平均池化对BERT的子词所携带的信息进行汇总,得到最终的词嵌入X∈Rn×dBX\in R^{n\times d_B}X∈Rn×dB​。

      2.3 GCN over Dependency Trees

      以词语表示X作为节点特征,以依存关系树为图,使用GCN来捕获词语结点与其相邻结点之间的句法关系。在每个GCN层中,节点聚集来自其一跳邻居的信息并更新其表示。其中每个单词被视为单个节点,其表示被表示为节点特征。图上的消息传递可以表示如下:

      其中H(l)∈Rn×dhH^{(l)}\in R^{n\times d_h}H(l)∈Rn×dh​是第l个GCN层的输出,H(0)∈Rn×dBH^{(0)}\in R^{n\times d_B}H(0)∈Rn×dB​是第一个GCN层的输入。节点特征通过GCN层传递,每个节点的表示现在由依存关系树中的语法信息进一步丰富。

      2.4 SA-GCN: Selective Attention based GCN 基于选择性注意的GCN

      虽然在依存关系树上执行GCNs为每个词的表示带来了语法信息,但它也限制了方面词和长距离观点词之间的交互,这对确定情感极性是必不可少的。为了缓解这一问题,本文应用了一种基于选择性注意的GCN(SA-GCN)块来识别最重要的上下文词,并将它们的信息整合到term项的表示中。可以堆叠多个SA-GCN块以形成深度模型。每个SA-GCN块由三部分组成:a multi-head self-attention layer, top-k selection and a GCN layer

      2.4.1 Self-Attention

      1. 得到的注意力得分矩阵可以被认为是L个完全连通(完全)图,其中每个词都与具有不同关注度的所有其他上下文词相连。
      2. 这种注意力得分矩阵已被用于注意力引导的GCNs进行关系提取。
      3. 尽管关注度有助于区分不同的词,但完全连通图仍然会导致方面节点直接融合所有其他词的信息,并且在GCNs的特征聚合过程中经常引入噪声,进一步损害了情感预测。
      4. 因此,本文提出了一种top-k注意力选择机制来稀疏完全连通图,得到一种新的稀疏图用于GCN的特征聚集。
      5. 这与注意力引导的GCNs不同,GCNs在完全连通的图上执行特征聚合。此外,实验研究也证实了top-k选择非常重要,并且绝对有利于term项分类任务。

      2.4.2 Top-k Selection

      对于每个注意力得分矩阵AscoreiA_{score}^iAscorei​,模型找出每个词的前k个重要的上下文词,有效的去除了AscoreiA_{score}^iAscorei​中的一些边缘。本文之所以只选择前k个上下文词,是因为只有少数几个词足以确定一个方面词的情感极性。因此,模型丢弃了其他注意力得分较低的单词,以消除不相关的嘈杂单词。作者设计了两种top-k选择策略,头部无关和头部相关。头部独立选择通过聚合所有头部的决策来确定k个上下文词,并在头部之间达成一致,而头部依赖策略使每个头部保留自己选择的k个词。

      头部独立选择的定义如下:首先对每个头部元素的注意分数矩阵进行求和,然后利用topktopktopk函数生成的掩码找到前k个上下文词。例如,如果k设置为2,则topk([0.3,0.2,0.5])returns [1,0,1]。最后,对更新后的注意力得分矩阵应用softmax操作:

      基于头部的选择根据每个头部的注意力得分矩阵分别寻找前k个上下文词。作者对每个top-k关注矩阵应用Softmax操作。这一步骤可以表述为:

      2.4.3 GCN Layer

      在对每个注意力得分矩阵AscoreiA_{score}^iAscorei​(AscoreiA_{score}^iAscorei​不再完全连接)进行top-k选择之后,本文应用单层GCN并获得更新的节点特征如下:

      2.5 Classifier

      从最后一个SA-GCN块的输出中提取特征项结点特征H∧o\overset{\wedge}{H}_oH∧o​,并进行平均池化,得到$\overset{\wedge}{h}_t\in R^{1\times d_h$。然后,将其送入到两层最大似然比已计算最终分类分数y∧s\overset{\wedge}{y}_sy∧​s​:

      本文使用交叉熵作为情感分类的损失函数:

      2.6 Opinion Extractor

      3. Experiments

      3.1 Results

      4. 启示

      1. 论文写的简直太好了,故事能讲这么好,牛。
      2. 创新点感觉一般,但是耐不住论文写得好啊,大佬牛皮。
      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 基于新标记方案的实体和关系联合提取

      Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

      基于新标记方案的实体和关系联合提取

      Abstract

      本文提出了一种新的标注方案,可以将联合抽取任务转化为标注问题。然后,基于这种标注方法,作者研究了不同的端到端模型来直接提升实体及其关系,而不需要单独识别实体和关系。

      1. Instruction

      实体和关系的联合提取是从非结构化文本中同时检测实体提及并识别其语义关系,如下图所示:

      传统的方法以流水线方式抽取这一任务,即先抽取实体,然后识别它们之间的关系。这种分离的框架是任务更容易处理,每个组件都可以更灵活。但它忽略了这两个子任务之间的相关性,每个子任务都是一个独立的模型。实体识别的结果可能会影响到关系分类的性能,并造成错误传播。

      与流水线模型不同,联合学习框架使用单一模型提取实体和关系。可以有效地集成实体和关系的信息,并在这项任务中取得了较好的效果。在本文中,主要研究由两个实体以及这两个实体之间的一个关系组成的三元组的提取。因此,作者直接对三元组建模,而不是分别提取实体和关系。基于这种动机,作者提出了一种结合端到端模型的标签方案来解决这一问题。本文设计了一种新颖的标签,它包含了实体及其所持有的关系的信息。

      本文还修改了解码方法,增加了偏置损耗,使其更适合这种特殊的标注方案。

      本文的贡献:

      1. 提出了一种新的联合抽取实体和关系的标注方案,可以很容易地将抽取问题转化为标注问题。
      2. 基于这种方案,本文研究了不同类型的端到端模型来解决这个问题。
      3. 针对新型标签的特点,提出了一种端到端的偏置损耗模型,它可以加强相关实体之间的联系。

      2. Mothod

      2.1 The Tagging Scheme

      如上图所示:CP是country-president的简称,cf是company-founder的简称。

      每个单词都被分配一个标签,用于提取结果BIOES。关系类型信息是从预先定义的关系集R中获得的,entity在关系角色的信息由数字1和2表示。提取的结果由三元组表示:(Entity1,RelationType,Entity2)。因此,标签总数为Nt=2×4×∣R∣+1N_t=2\times 4\times |R| + 1Nt​=2×4×∣R∣+1。

      上图的标注方法,输入句子包含两个三元组(United States, Country-President, Trump),(Apple Inc, Company-Founder, Steven Paul Jobs)。其中United,States,Trump,Apple,Inc,Steven,Paul和Jobs等词都与最终提取的结果有关。

      特殊标签进行标注,例如United这个词是United States实体的第一个词,与Country-President关系有关,所以它的标签时B-CP-1,对应于United States的另一个相同关系类型Company=Founder。

      2.2 The End-to-End Model

      2.2.1 Bi-LSTM编码器

      一个单词序列可以表示为W=w1,…,wnW={w_1,…,w_n}W=w1​,…,wn​

      2.2.2 LSTM解码器


      最终的softmax层根据标签预测向量TtT_tTt​计算归一化实体标签概率:

      2.2.3 The Bias Objective Function

      目标函数定义为:

      |D|是训练集的大小,LjL_jLj​是句子xjx_jxj​的长度,yt(j)y_t^{(j)}yt(j)​是单词xjx_jxj​中词t的标注。I(O)I(O)I(O)表示一个门控函数,以区分标注O与可指示结果的相关标注间的损失,定义如下:

      3. Experiments

      与经典方法不同,该方法可以在不知道实体类型的情况下提取三元组。换句话说,没有使用实体类型的标签来训练模型,因此不需要在评估中考虑实体类型。当一个三元组的关系类型和两个对应实体的头部偏移量都正确时,该三元组被认为是正确的。

      3.1 Results

      4. 启示

      1. 采用一种新的标注方法,即将关系类型标注到实体标签中,比较新颖。
      2. 达到了49.5的F1值,在当年分数还是比较高的。
      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239
    • 用于命名实体识别的模块化交互网络

      Modularized Interaction Network for Named Entity Recognition

      用于命名实体识别的模块化交互网络

      Abstract

      当前的NER存在一定的缺陷:序列标注的NER模型识别长实体时表现不佳,因为序列标注只关注词级信息。边界检测和类型检测可以相互协作,两个子任务之间共享信息可以互相加强。本文提出了一种新的模块化交互网络模型(MIN),该模型能够同时利用segment-level和word-level依赖关系,并加入交互机制来支持边界检测和类型预测之间的共享信息。

      1. Introduction

      NER的目标是检测文本文本中实体的边界和实体的类型。本文作者在实验中发现边界检测和类型检测两个任务是相关的,因此提出了本文的方法:共享边界检测和类型检测的信息进行NER。

      Emmy Rossum was from New York University.

      • 如果University是一个实体边界,那么将对应的实体类型预测为ORG更准确。
      • 类似的,如果知道一个实体具有ORG类型,那么预测University是实体New York University的结束边界,而不是York会更正确。

      然后,基于序列标注的模型将边界和类型视为标签,因此这些信息不能在任务之间共享。

      为了解决基于序列标注的模型在识别长实体的问题,以及基于片段的模型中利用片段内的词级依赖关系的问题。

      • 本文在边界模型中加入了指针网络作为解码器,用来获取每个单词的片段级信息。
      • 将segment-level信息和关于每个单词的对应的word-level信息连接起来,作为基于序列标注的模型的输入。
      • 使用两个不同的编码器从两个子任务中提取它们的上下文表示,并提出了一种相互促进的交互机制,并将这些信息融合到NER模型中进行多任务训练。

      2. Proposed Model

      2.1 NER Module

      采用rnn-bilstm-crf作为backbone。

      2.1.1 Word Representation

      输入句子:SSS=<w1,…,wnw_1,…,w_nw1​,…,wn​>,其中wiw_iwi​由word-level embedding和character-level embedding表示。

      xiwx_i^wxiw​和xicx_i^cxic​分别是预训练的word embedding和由BiLSTM得到的。

      2.1.2 BiLSTM Encoder

      将X=X=X=<x1,…,xnx_1,…,x_nx1​,…,xn​>馈送到BiLSTM中,得到所有words的hidden sequence H=H=H=<h1,…,hnh_1,…,h_nh1​,…,hn​>:

      在NER Module中,本文融合了Boundary Module和Type Module表示,并不是简单的将hidden sequence拼接,而是使用门控函数控制信息流数量。除此之外,本文还融合了Boundary Module中的Segment information,用于支持长实体的识别。

      其中HBdy,HTypeH^{Bdy},H^{Type}HBdy,HType表示boundary module和type module的hidden sequence。HSegH^{Seg}HSeg表示boundary module的segment information。H−Bdy,H−Type\overset{-}{H}^{Bdy},\overset{-}{H}^{Type}H−Bdy,H−Type表示使用interaction mechanism之后来自两个模块的hidden sequence。HB,HT,HSH^B,H^T, H^SHB,HT,HS表示在门控函数的控制下,输入NER module的hidden sequence。

      NER Module的最终hidden representations:

      2.1.3 CRF Decoder

      对于输入句子:S=S=S=<w1,…,xnw_1,…,x_nw1​,…,xn​>,预测标签序列得分为:y=y=y=<$y_1,…,y_n>,定义如下:

      其中Tyi,yi+1T_{y_i,y_{i+1}}Tyi​,yi+1​​表示yiy_iyi​ to yi+1y_{i+1}yi+1​的分数。Pi,yiP_{i,y_i}Pi,yi​​表示句子中第i个单词为标签yiy_iyi​的score。

      CRF模型描述了集合Y中所有可能的标签序列的预测标签y的概率:

      2.2 Boundary Module

      boundary module不仅需要为ner module提供上下文边界信息,还要提供segment information。

      本文使用一个BiLSTM作为编码器提取不同的context boundary information。本文使用带有指针网络的神经递归网络进行检测实体段信息。

      boundary模型处理实体中的开始边界词,指向相应的结束边界词,跳过实体中的其他实体单词,非实体词指向一个指定的位置。由于实体长度的变化,该模型缺乏批量训练的能力。

      另外,实体中的每个单词的segment information与起始边界词相同,如果错误的检测到起始边界词,那么段内的所有词的segment information都将错误,本文改进了这个训练过程,用一种新的方法获取每个单词的segment信息。

      训练起始边界词指向相应的结束边界词,句子中的其他单词指向不活动的前哨兵词(inactive)。

      使用BiLSTM作为编码器,获得明显的boundary hidden sequences:

      在hidden sequence HBdyH^{Bdy}HBdy的最后一个位置填充一个哨兵向量inactive,这个哨兵向量作为不活动单词的标识(不是实体词的指向)。

      使用LSTM作为解码器,在每个时间步j出生成解码后的状态djd_jdj​,为了给LSTM的输入添加额外的信息,本文使用current(hiBdyh_i^{Bdy}hiBdy​),previous(hi−1Bdy)和next(h_{i-1}^{Bdy})和next(hi−1Bdy​)和next(h_{i+1}^{Bdy}$)三个隐藏状态的和代替word embedding作为解码器的输入:

      Note:第一个词和最后一个词没有前面一个词和后面一个词的hidden states,本文使用zero vector表示。

      之后,本文使用biaffine注意机制在时间步长j为每个可能的boundary position i 生成特征表示uiju_i^juij​,并使用softmax函数求出单词wiw_iwi​的概率,用于确定以单词wjw_jwj​开头,以单词wiw_iwi​结尾的entity segment的概率:

      本文使用p(wi∣wj)p(w_i|w_j)p(wi​∣wj​)作为单词wjw_jwj​开头,以单词wiw_iwi​作为结尾的segment information置信度。然后将概率p(wi∣wj)下所有的segmentinformation相加作为单词p(w_i|w_j)下所有的segment information相加作为单词p(wi​∣wj​)下所有的segmentinformation相加作为单词w_j的segmentinformation的segment information 的segmentinformationH^{Seg}$:

      其中hj,iph_{j,i}^phj,ip​表示以单词wjw_jwj​开始,以单词wiw_iwi​结尾的segment information 表示。HSegH^{Seg}HSeg表示segment information of boundary module。

      2.3 Type Module

      对于type module,本文使用于NER模型中相同的网络结构。在给定共享输入X=X=X=<x1,…,xnx_1,…,x_nx1​,…,xn​>的情况下,使用BiLSTM来提取不同的上下文类型信息H=H=H=<h1,…,hnh_1,…,h_nh1​,…,hn​>,然后使用CRF来标记类型标签。

      2.4 Interaction Mechanism

      如上所示,边界信息和类型信息可以相互增强。本文在每个子任务标签上使用self-attention机制获得明确的label representations,然后,将这些representation和相应子任务的contextual information连接起来,得到label-enhanced contextual information,将经过self-attention的向量和本身向量进行拼接。对于第i个label-enhanced boundary contextual representation hiB−Eh_i^{B-E}hiB−E​,本文首先使用biaffine attention来控制hiB−Eh_i^{B-E}hiB−E​与label-enhanced type contextual information <h1T−E,…,hnT−Eh_1^{T-E},…,h_n^{T-E}h1T−E​,…,hnT−E​>的attention scores。

      然后,将第i个label-enhanced boundary representation hiB−Eh_i^{B-E}hiB−E​和interaction representation riB−Er_i^{B-E}riB−E​拼接起来。

      相似的,可以通过考虑边界信息得到更新的类型表示hi−Type\overset{-}{h_i}^{Type}hi​−​Type。

      2.5 Joint Training


      3 Experiments

      3.1 Results

      当与没有使用任何语言模型或外部知识的模型进行比较时,本文的MIN模型在查准率、召回率和F1分数方面优于所有比较的基线模型,并在CoNLL2003、WNUT2017、JNLPBA数据集上分别提高了0.75%,4.77%,3.26%。BiLSTM-Pointer的模型普遍低于其他模型,这是因为它没有利用片段内的词级依赖关系,并且在边界检测和类型预测期间还存在边界错误传播问题。

      4 启示

      1. 将边界信息和类型信息进行交互,在具有语言模型的基础上取得的结果确实够高。
      2. 没有找到代码,但是论文的模型部分写的真的好,可以尝试复现。
      3. 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
      posted in 语音识别与语义处理领域
      175****1239
      175****1239