Instance-Based Learning of Span Representations:A Case Study through Named Entity Recognition
-
Abstract
本文提出了一个基于实例学习来学习span之间的相似度
Model
将NER问题形式化为span分类问题,可以处理嵌套实体
给定一个由T个单词的句子X=(w1,w2,…,wT)X= (w_1,w_2,…,w_T)X=(w1,w2,…,wT),首先列举出可能的span S(X)\mathcal{S(X)}S(X),非实体span被分配为NULL标签
该模型的思想非常简单:将一个实体及其训练集的span映射到特征向量空间,然后计算相似度。
本文定义邻域span的概率为:P(sj∣si,D)=exp(score(si,sj))∑sk∈S(D)exp(score(si,sk))P(s_j|s_i,\mathcal{D})=\frac{exp(score(s_i,s_j))} {\sum_{s_k\in \mathcal{S(D)}}exp(score(s_i,s_k))}P(sj∣si,D)=∑sk∈S(D)exp(score(si,sk))exp(score(si,sj))
score函数返回span si,sjs_i,s_jsi,sj的相似度,然后计算span sis_isi被分配标签yiy_iyi的概率:
P(yi∣si)=∑sj∈S(D,yi)P(sj∣si,D)P(y_i|s_i)=\sum_{s_j\in \mathcal{S(D,y_i)}}P(s_j|s_i,\mathcal{D})P(yi∣si)=∑sj∈S(D,yi)P(sj∣si,D)启示
- 模型的思想比较简单,但是让我想我想不出来,作者牛皮,代码牛皮。唯一不足就是时间复杂度太高了,要考虑全部的span概率。