基于选择性注意的图卷积网络用于方面级情感分类
-
Selective Attention Based Graph Convolutional Networks for Aspect-Level Sentiment Classification
基于选择性注意的图卷积网络用于方面级情感分类
Abstract
方面级情感分析的目的是识别句子中某一特定aspect词语的情感极性。最近的方法通过使用依赖树上的GCN来获得aspect terms的语法感知表示,并学习aspect和上下词之间的交互。GCNs通常在两层的情况下获得最佳性能,更深的GCNs不会带来任何额外的收益。然而,在某些情况下,在依存树上的两跳内不能到达方面术语的对应意见词。因此,本文设计了一种新的基于选择性注意的GCN(SA-GCN)来处理方面词和观点次较远的情况。由于观点词是对aspect-term极性分析的直接解释,因此本文将观点抽取作为辅助任务来辅助情感分析任务。具体地说,在对依赖关系树进行操作的GCN模型的基础上,本文使用自注意力机制直接为句子中的每个单词选择注意力得分最高的k个单词。然后,在生成的前k个关注图上应用另一个GCN来整合来自所选上下文的信息。
1. Introduction
最近的研究表明,方面术语与其上下文(包括观点词)之间的相互作用对于识别对给定术语的情感极性至关重要。大多数研究方法都考虑了来自语境词的语义信息,并利用注意机制来学习这种互动。然而,研究表明,从依存句法分析中获得的句法信息在捕捉表面形式模糊的长程句法关系方面非常有效。最近流行的一种学习句法表示的方法是在依存关系树上使用图卷积网络模型,这允许以句法方式在方面词语及其上下文词之间传递消息。
在某些情况下,最重要的上下文词,即意见词,距离依存关系树上的方面词语超过两跳,如Figure 1所示(目标Mac OS和依赖关系树上的意见词Easy Pick之间有四个跳跃。):
为了解决上述问题,本文提出了一种新的基于选择性注意的GCN模型(SA-GCN),该模型结合了依赖树上的GCN模型和基于自我注意的序列模型。
- 自我注意序列模型实现了方面词与其意见词之间的直接交互,从而能够处理依存关系树上该词与意见词相距较远的情况。
具体来说,基本模型是依存关系树上的GCN模型,它应用预先训练的BERT作为编码器,获得方面词及其上下文词的表示,作为依存关系树上的初始节点特征。该模型考虑了目标及其在依存关系树上的句法邻居之间的联系。
接下来,GCN输出被馈送到top-k多头注意力选择模块。
- 对于每个头部,根据注意力得分矩阵选择前k个重要的上下文词。
- 这一选择步骤有效地从方面项的上下文中移除了噪声和不相关的词。
- 然后在选择的代表新图的注意力得分矩阵之上,我们再次应用GCN层来整合来自TOPK重要上下文词的信息。
因此,最终的方面词表示集成了来自BERT的语义表示、来自依存关系树的句法信息以及来自句子序列的top-k参与的上下文单词。然后,该表示被馈送到最终分类层以进行情感预测。
为了进一步加强了情感分类的训练,并辅以意见抽取任务。直觉,将观点词定位为体词有助于情感极性的预测。如图1所示,如果正确地检测到意见词“容易拾取”,它肯定可以帮助模型将情绪分类为积极的。事实上,top-k选择模块就是为了找到这样的观点词而设计的。因此,本文进一步引入了意见词抽取任务,为top-k评选过程提供监督信息。具体地,将SA-GCN的输出直接馈送到CRF解码层,并联合训练情感分类和观点提取任务。
贡献:
- 提出了一种基于选择性注意的GCN模块(SAGCN),该模块利用GCN相对于依赖树的优势,使方面词能够根据最相关的上下文词直接从观点词中获取信息。这有助于模型处理当方面术语和意见词在依存关系树上彼此远离时的情况。
- 提出联合训练情感分类和意见抽取任务。联合训练进一步提高了分类任务的性能,并为情感预测提供了解释。
- 在四个基准数据集上进行了实验,包括来自SemEval 2014任务4的笔记本电脑和餐厅评论,来自SemEval 2015任务12和SemEval2016任务5的餐厅评论,SAGCN获得了新的最先进的结果。
2 Proposed Model
2.1 Overview of the Model
意见提取任务旨在预测标签序列yo=[y1,…,yn]y_o=[y_1,…,y_n]yo=[y1,…,yn](yi∈B,I,Oy_i\in {B,I,O}yi∈B,I,O)。
对于构成句-词对的每个实例,句子中除方面词之外的所有词都被定义为上下文词。
2.2 Encoder for Aspect Term and Context
本文使用BERT作为编码器来获得句子的词嵌入。假设一个句子由n个单词w1,…,xτ,wτ+1,…wτ+m,…,wn{w_1,…,x_\tau,w_{\tau+1},…w_{\tau +m},…,w_n}w1,…,xτ,wτ+1,…wτ+m,…,wn组成,其中wτ,wτ+1,…,wτ+m−1{w_{\tau},w_{\tau +1},…,w_{\tau +m-1}}wτ,wτ+1,…,wτ+m−1表示包含m个单词的aspect term。
将其处理成"[CLS] + Sentence + [SEP] + term + [SEP]",并将其提供给BERT。该输入格式使得能够在整个句子和术语之间进行显示交互,从而获得的单词表示是term相关的。然后,使用平均池化对BERT的子词所携带的信息进行汇总,得到最终的词嵌入X∈Rn×dBX\in R^{n\times d_B}X∈Rn×dB。
2.3 GCN over Dependency Trees
以词语表示X作为节点特征,以依存关系树为图,使用GCN来捕获词语结点与其相邻结点之间的句法关系。在每个GCN层中,节点聚集来自其一跳邻居的信息并更新其表示。其中每个单词被视为单个节点,其表示被表示为节点特征。图上的消息传递可以表示如下:
其中H(l)∈Rn×dhH^{(l)}\in R^{n\times d_h}H(l)∈Rn×dh是第l个GCN层的输出,H(0)∈Rn×dBH^{(0)}\in R^{n\times d_B}H(0)∈Rn×dB是第一个GCN层的输入。节点特征通过GCN层传递,每个节点的表示现在由依存关系树中的语法信息进一步丰富。
2.4 SA-GCN: Selective Attention based GCN 基于选择性注意的GCN
虽然在依存关系树上执行GCNs为每个词的表示带来了语法信息,但它也限制了方面词和长距离观点词之间的交互,这对确定情感极性是必不可少的。为了缓解这一问题,本文应用了一种基于选择性注意的GCN(SA-GCN)块来识别最重要的上下文词,并将它们的信息整合到term项的表示中。可以堆叠多个SA-GCN块以形成深度模型。每个SA-GCN块由三部分组成:a multi-head self-attention layer, top-k selection and a GCN layer
2.4.1 Self-Attention
- 得到的注意力得分矩阵可以被认为是L个完全连通(完全)图,其中每个词都与具有不同关注度的所有其他上下文词相连。
- 这种注意力得分矩阵已被用于注意力引导的GCNs进行关系提取。
- 尽管关注度有助于区分不同的词,但完全连通图仍然会导致方面节点直接融合所有其他词的信息,并且在GCNs的特征聚合过程中经常引入噪声,进一步损害了情感预测。
- 因此,本文提出了一种top-k注意力选择机制来稀疏完全连通图,得到一种新的稀疏图用于GCN的特征聚集。
- 这与注意力引导的GCNs不同,GCNs在完全连通的图上执行特征聚合。此外,实验研究也证实了top-k选择非常重要,并且绝对有利于term项分类任务。
2.4.2 Top-k Selection
对于每个注意力得分矩阵AscoreiA_{score}^iAscorei,模型找出每个词的前k个重要的上下文词,有效的去除了AscoreiA_{score}^iAscorei中的一些边缘。本文之所以只选择前k个上下文词,是因为只有少数几个词足以确定一个方面词的情感极性。因此,模型丢弃了其他注意力得分较低的单词,以消除不相关的嘈杂单词。作者设计了两种top-k选择策略,头部无关和头部相关。头部独立选择通过聚合所有头部的决策来确定k个上下文词,并在头部之间达成一致,而头部依赖策略使每个头部保留自己选择的k个词。
头部独立选择的定义如下:首先对每个头部元素的注意分数矩阵进行求和,然后利用topktopktopk函数生成的掩码找到前k个上下文词。例如,如果k设置为2,则topk([0.3,0.2,0.5])returns [1,0,1]。最后,对更新后的注意力得分矩阵应用softmax操作:
基于头部的选择根据每个头部的注意力得分矩阵分别寻找前k个上下文词。作者对每个top-k关注矩阵应用Softmax操作。这一步骤可以表述为:
2.4.3 GCN Layer
在对每个注意力得分矩阵AscoreiA_{score}^iAscorei(AscoreiA_{score}^iAscorei不再完全连接)进行top-k选择之后,本文应用单层GCN并获得更新的节点特征如下:
2.5 Classifier
从最后一个SA-GCN块的输出中提取特征项结点特征H∧o\overset{\wedge}{H}_oH∧o,并进行平均池化,得到$\overset{\wedge}{h}_t\in R^{1\times d_h$。然后,将其送入到两层最大似然比已计算最终分类分数y∧s\overset{\wedge}{y}_sy∧s:
本文使用交叉熵作为情感分类的损失函数:
2.6 Opinion Extractor
3. Experiments
3.1 Results
4. 启示
- 论文写的简直太好了,故事能讲这么好,牛。
- 创新点感觉一般,但是耐不住论文写得好啊,大佬牛皮。
- 欢迎关注微信公众号:自然语言处理CS,一起来交流NLP。
-
文中插图好像无法显示哦~