Deep Biaffine Attention for Dependency Parsing
-
Abstract
本文在一个简单的基于图的依赖解析器中使用神经注意,并使用biaffine分类器来预测弧和标签。将传统的基于MLP注意力机制和仿射标签分类器替换为biaffine注意力
Model
biaffine并不是双向性或MLP机制,而是使用一个仿射变化在单个LSTM输出状态rrr预测所有类别的得分
若每个句子中有N个单词,包括根在内一共有d=N+1个词,每个词都需要得到一个分数sis_isi,因为句子中词的个数是不确定的,所以这是一个不定类别的分类问题。
为了解决上述不定类别的分类问题,本文采用两个MLP对BiLSTM的隐层输出向量进行重新编码:hi=MLP(ri);hj=MLP(rj)h_i=MLP(r_i);h_j=MLP(r_j)hi=MLP(ri);hj=MLP(rj),然后通过线性变化和双仿射分类器得到的结果就是deep bilinear attention mechanism
启示
- 本文主要的工作是提出了双仿射注意力机制,只能说太强了。