Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    CCKS2021 面向保险领域的低资源文档信息抽取

    竞赛赞助
    1
    1
    70
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 1
      151****8705 last edited by

      大赛概况

      阿里巴巴和中国人寿联合举办“面向保险领域的低资源文档信息抽取”评测任务,希望通过此次评测任务及开放的中文文档信息抽取数据集,助力中文文档信息抽取技术的发展及其商业化落地应用。本次评测面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,期望参与者能够充分利用文档格式信息,在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

      赛程安排

      本次大赛分为报名组队、初赛、复赛三个阶段,具体安排和要求如下:

      报名组队——————5月27日—6月25日
      初赛阶段——————5月31日—7月9日
      复赛阶段——————7月12日—8月13日

      报名组队与实名认证(2021年5月27日—6月25日)

      报名方式:5月27日阿里天池平台(https://tianchi.aliyun.com/)将开放本次比赛的组队报名、登录比赛官网,完成个人信息注册,即可报名参赛;

      选手可以单人参赛,也可以组队参赛。组队参赛的每个团队不能超过5人,每位选手只能加入一支队伍;

      选手需确保报名信息准确有效,组委会有权取消不符合条件队伍的参赛资格及奖励;

      选手报名、组队变更等操作截止时间为6月25日晚上23:59:59;同样,各队伍(包括队长及全体队伍成员)需要在6月25日晚上23:59:59前完成实名认证(认证入口:天池官网-右上角个人中心-认证-支付宝实名认证),未完成认证的参赛团队将无法进行后续的比赛;

      赛题背景

      随着知识图谱在各个行业的应用,使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点。然而当前信息抽取任务多关注于从无结构化文本中抽取知识,忽略了文档中丰富的格式信息。同时,在真实的业务场景下,文档级信息抽取标注数据的获取成本十分高昂,现有信息抽取方法在少量标注样本下的表现性能不佳,已经成为阻碍行业知识图谱规模化应用的主要瓶颈之一。为此,阿里巴巴和中国人寿联合举办“面向保险领域的低资源文档信息抽取”评测任务,希望通过此次评测任务及开放的中文文档信息抽取数据集,助力中文文档信息抽取技术的发展及其商业化落地应用。

      本次评测面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,期望参与者能够充分利用文档格式信息,在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

      赛题描述

      输入:文档的PDF格式文件及对应的解析后文件

      示例:

      二、解析后的文件(部分,分别为word、 x0、y0、 x1、y1、 fontsize、fontname)

      子任务一:文档标题层级抽取

      输出:文档内所有的标题及其目录层级编号
      示例:

      {“1”, “保险合同构成”}
      {"2”, “投保范围”}
      {“3”, “保险期间和续保”}
      {“4”, “保险责任”}
      {“4.1”, “基本责任”}
      {“4.1.1”, “意外伤害身故责任”}
      注:
      当文档中标题无数字编号时,参赛者需根据文档生成对应的数字编号。

      子任务二:文档开放信息抽取

      输出:文档内以当前保险产品为头实体的所有属性-属性值对
      示例:

      {“保险合同构成”, “国寿e家吉祥送福综合意外伤害保险(2013版)合同(以下简称本合同)由保险单及所附国寿e家吉祥送福综合意外伤害保险(2013版)利益条款(以下简称本合同利益条款)、短期保险基本条款(以下简称本合同基本条款)、批注、附贴批单、投保单,以及与本合同有关的投保文件、声明和其他书面协议共同构成。”}
       {“投保范围”, “凡出生二十八日以上、七十周岁以下的身体健康者,均可作为被保险人,由具有完全民事行为能力的本人或对其具有保险利益的其他人作为投保人,向本公司投保本保险。”}
       {“保险期间和续保”, “本合同的保险期间最长为一年;除另有约定外,自本合同生效之日起至约定终止日二十四时止。
      投保人可于保险期间届满前或在本合同约定的交费宽限期内,经本公司同意后,向本公司交付续保保险费,本合同于保险期间届满的次日起延续有效。本合同可按上述方式续保至被保险人年满七十五周岁后的第一个生效对应日。
      本公司保留终止本合同续保的权利,并有权调整保险费收费标准。”}

      数据描述

      本次数据来自真实保险产品文档,由专业人员标注,训练集、验证集及测试集的说明如下:

      训练集:
      共包含50篇左右有标注和2000篇无标注的文档(下载链接),每篇文档都包含PDF格式的文档及其对应的解析后文件,用于竞赛模型训练。其中,有标注文档还带有额外的标签文件。
      验证集:
      共包含50篇左右有标注文档,用于竞赛模型训练和参数调试,此外该数据集也作为初赛的评测数据集。
      测试集:
      共包含100篇有标注文档,为本次评测的最终测试集。另外为了防止针对测试集的调试,数据中将会额外加入混淆数据。该部分数据在评测结束前一周发布。

      提交说明

      参赛队伍需要提交一个以results.json命名的结果文件,格式可参考"样例输出.json",其中product字段为对应的产品名(一个产品名对应一个输入文件),tid字段为标题编号,title为标题内容(属性),value为对应的属性值(此字段内容可为空),示例如下:

      [{
       “product”: “产品名”,
       “annotation”: [{
       “tid”: “标题编号”,
       “title”: “标题内容(属性)”,
       “value”: “属性值”
       }]
      }]

      评价指标

      本次评测采用调整后的精准率(Precision,P)、调整后的召回率(Recall, R)、F1值(F1-measure,F1)来评估文档信息抽取的效果:

      1 Reply Last reply Reply Quote 2
      • First post
        Last post