CCKS2021 运营商知识图谱推理问答
-
比赛概况
阿里巴巴与中移在线服务有限公司发布的此次评测任务,是希望参赛选手基于我们提供的运营商知识图谱,将用户这类真实query作为输入,构建模型预测其答案。为帮助参赛选手提高问答效果,训练文件会提供问题对应的SPARQL查询。该任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。
赛程安排
本次大赛分为报名组队、初赛、复赛和决赛三个阶段,具体安排和要求如下:
报名组队——————5月27日—6月25日
初赛阶段——————5月31日—7月9日
复赛阶段——————7月12日—8月13日赛题背景
基于知识图谱的问答系统,通过对用户输入query进行语义理解,生成结构化查询语句,从给定知识库中选择若干实体或属性值作为该问题的答案。当前知识图谱问答系统在简单句(单实体单属性)上已经取得比较好的效果,而在约束句:条件约束句、时间约束句,以及推理型问句:比较句、最值句、是否型问句以及问句中带有交集、并集和取反的问句等,其逻辑推理能力还有待提升。
以电信运营商场景为例,比如:“不含彩铃的套餐有哪些?”、“支持长途漫游,价格低于100元的套餐有哪些?”、“神州行B套餐是5G套餐吗”等,这类需要推理的Query目前的问答系统难以回答。此次评测任务,是希望参赛选手基于我们提供的运营商知识图谱,提升在线问答的推理能力。输入:
输入文件包含若干行中文问句。
输出:
输出文件每一行对应一个问题的答案列表,列表内元素以\t分隔。输入样例:
q1:流量日包的开通方式?
q2:不含彩铃的套餐有哪些?输出样例
a1:“KTLLRB”
a2:“流量月包|流量年包”数据描述
数据来源:
本次测评的问答数据来自于电信运营商业务真实数据,而不是通过模板生成,并且经过多个业务专家进行人工标注,能够保证数据的准确性和多样性。问答数据集中的问题,包含简单句、约束句和推理句,数量比例大致为4:5:1。
训练集&验证集:
在训练数据发布阶段,我们会发布5000条标注好的数据(包括问题/SPARQL主要语义成分/答案)作为训练集。同时发布1000条左右不含标注结果的问题作为验证集,选手可以将自己生成的验证集答案提交,比赛系统会对答案进行评测,给出得分并进行排行。
在测试数据发布阶段,我们会发布验证集的标注结果(包括问题/SPARQL主要语义成分/答案),同时发布1000条左右不含标注结果的问题,作为测试。
为帮助参赛选手提高系统性能,训练文件会提供问题对应的SPARQL主要语义成分。原则上不要求生成SPARQL查询,参赛选手可以选择自己的方式,只需要给出问题的最终答案(答案需要来自给定知识库)。当问题所涉及的事实与知识库不一致时,以知识库中数据为准。
知识库相关文件说明:
本任务使用的知识库是来源于阿里巴巴和中移在线服务有限公司联合构建,详细地址会在阿里天池平台发布。数据说明(如有变动后续会进行更新,以实际下载文件为准):
运营商知识图谱scheme.xlsx 包含类型和谓词之间的上下位关系等信息;
triples.txt 包含知识库主要三元组;
synonyms.txt 可以用来辅助选手进行实体识别;
train.xlsx 训练集;
test1.xlsx 初赛测试集;