Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    Revisiting the Negative Data of Distantly Supervised Relation Extraction

    语音识别与语义处理领域
    1
    1
    50
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 175****1239
      175****1239 last edited by 175****1239

      66453272-4c51-499a-9824-278c73d165e8-image.png

      1. 摘要

      • 无监督的关系抽取,存在两大问题:噪声标签、训练数据不平衡
      • 以往:研究集中在减少错误标签的关系(假阳性),很少研究由于知识库的不完备性导致的缺失关系(假阴性)
      • 本文的贡献:
        – 首先对负面数据进行分析
        – 接下来,将关系抽取表述为一个正的无标签学习任务,缓解假阴性问题
        – 提出模型RERE进行关系检测,然后进行subject和object提取

      2. 问题分析

      关系级别假阴性:抽取到的关系,在预定义的关系集中不存在
      实体级别假阴性:S4、S5表示实体级别假阴性4f595f7f-02e9-4bec-befd-a72dca5a7473-image.png
      阶级分布不平衡:负标签的数量远远大于正面标签的数量

      2.1 解决假阴性问题

      由百度百科标记的NYT数据集中的三元组为88253,由Wikidata标记的为58135。可以看到,由于知识库的不完备性,只用一个KB来标记,就会存在大量的FN,特别是当多个关系出现在一句中时,即使是人工标注。

      2.2解决负面标签

      采用先抽取关系,再抽取主体和客体的范式

      3.模型

      83f33f83-71fa-4e6f-bee0-d2c4a421b8f8-image.png

      1. 输入:[CLS],cic_ici​,[SEP]
      2. 经过BERT生成token表示矩阵:Hrc∈RN×dH_{rc} \in R^{N \times d}Hrc​∈RN×d
      3. 将BERT输出的第一个token [CLS] 的编码向量 hrc0h_{rc}^{0}hrc0​ 作为句子表示,关系分类的最终输出为:yrc=σWhrc0+by_{rc}= \sigma{Wh^0_{rc}+b}yrc​=σWhrc0​+b
      4. 取关系分类的输出yrcy_{rc}yrc​(onehot),使用每个检测到的关系(yrcy_{rc}yrc​中1的个数)来生成query
      5. 构造MRC格式:[CLS],qiq_iqi​,[SEP],cic_ici​,[SEP]
      6. 将上述输入到BERT中,得到token表示矩阵Hee∈RN×dH_{ee} \in R^{N\times d}Hee​∈RN×d
      7. 实体抽取的第K个输出指针由yeek=σWHee+by_{ee}^k=\sigma{WH_{ee}+b}yeek​=σWHee​+b

      4. Experiments

      b7114e41-7f7b-4fda-ba63-4ccbe6c5473e-image.png

      5. 启示

      1. 先抽取关系再抽取实体的范式,可以应用到监督领域
      2. 可以对模型进一步提取特征
      3. 增加两者之间的关联性
      1 Reply Last reply Reply Quote 2
      • First post
        Last post