“英特尔创新大师杯”深度学习挑战赛 赛道3:CCKS2021中文NLP地址相关性任务
-
大赛概况
人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。针对这些难点,阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含中文NLP的2个子任务,分别是:地址要素解析、地址相关性任务。
赛程安排
本次大赛分为报名组队、初赛、复赛和决赛三个阶段,具体安排和要求如下:
报名组队——————5月17日—7月7日
初赛阶段——————5月24日—7月9日
复赛阶段——————7月12日—8月13日
决赛答辩——————10月下旬报名组队与实名认证(2021年5月17日—7月7日)
sa
报名方式:5月17日阿里天池平台(https://tianchi.aliyun.com/)将开放本次比赛的组队报名、登录比赛官网,完成个人信息注册,即可报名参赛;
选手可以单人参赛,也可以组队参赛。组队参赛的每个团队2-3人,每位选手只能加入一支队伍;
选手需确保报名信息准确有效,组委会有权取消不符合条件队伍的参赛资格及奖励;
选手报名、组队变更等操作截止时间为7月7日晚上23:59:59;同样,各队伍(包括队长及全体队伍成员)需要在7月7日晚上23:59:59前完成实名认证(认证入口:天池官网-右上角个人中心-认证-支付宝实名认证),未完成认证的参赛团队将无法进行后续的比赛;初赛阶段(2021年5月24日-2021年7月9日,UTC+8)
初赛的几个关键时间点: 5月24号天池平台将开放竞赛数据集和系统测评。
选手报名成功后,参赛队伍通过天池平台下载数据,本地调试算法,在线提交结果。
初赛提供训练数据集,供参赛选手训练算法模型;同时提供测试数据集,供参赛选手提交评测结果,参与排名。
初赛时间为2021年5月24日-2021年7月9日,系统每天提供2次提交机会,系统进行实时评测并返回成绩,排行榜每小时进行更新,按照评测指标从高到低排序。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。
初赛淘汰:2021年7月9日上午9:59:59,初赛阶段未产出成绩的队伍将被取消复赛参赛资格。
初赛结束,初赛排名前100名的参赛队伍将进入复赛,入围复赛最终名单将在7月9日21:59:59确认。复赛阶段(2021年7月12日—2021年8月13日,UTC+8)
复赛阶段测试数据不可下载,采用docker镜像的提交方式,“容器镜像”提交说明在复赛前公布。第一次接触docker可直达教程(链接)。
本阶段,系统每天提供2次实时评测,每小时更新排行榜,按照评测指标从高到低排序。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示,但最终入围决赛的排行榜则是根据参赛团队在复赛最后一周(8月9日-8月13日)提交的历史最优成绩而决定。复赛提交截止时间8月13日中午11:59:59。本阶段内,选手需保证最后提交的是最优模型对应的完整端到端代码(包含数据处理和模型训练等)并能运行复现最优成绩。复赛结束后,该阶段最优成绩对应提交的镜像将直接用于代码审核,如最优成绩对应的镜像代码不是完整代码运行得出,将会直接淘汰,因此如果最后阶段出现无法复现的最优成绩可在复赛提交结束前联系组委会协助删除最优记录,复赛结束后不再受理。
榜单将在复赛截止后公布。复赛结束后,组委会将对排行榜TOP 20参赛队伍进行最优提交成绩的模型和完整代码审核,该阶段最优成绩对应提交的镜像将直接用于代码审核,选手需保证提交最优模型对应完整端到端代码(包含数据处理和模型训练等)且能运行复现最优成绩,不接受随机成绩。如最优成绩对应的镜像代码不是完整代码运行得出,将会直接淘汰。对于未提交、复现未成功或审核不通过的队伍,将取消决赛资格和比赛奖励。
最终审核通过的前5名参赛队伍晋级决赛。
决赛答辩(暂定10月)
入围线下决赛答辩名单通知时间为8月31日晚上23:59:59前。
入围团队需要在10月1日17:59:59前需要提交答辩PPT,并在现在线下决赛前一天参与决赛彩排完成设备调试。线下决赛具体时间将在复赛结束后公布。
决赛评分参考:复赛榜单、代码质量和答辩。
答辩需要准备答辩材料,包括答辩PPT(中英文均可)、参赛总结、算法核心。本次赛事决赛入围团队的最终得分将由复赛成绩、决赛答辩成绩加权得出,评分权重为:复赛成绩占80%,决赛答辩成绩占20%。
另:本次赛事若要求论文环节,则将以CCKS 2021的通知要求为准。
赛题背景
地址文本相关性任务在现实世界中存在着广泛的应用场景,如:基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位、不同地址信息系统的对齐等等。
日常生活中输入的地址文本可以为以下几种形式:
包含四级行政区划及路名路号POI的规范地址文本;
地址要素缺省的规范地址文本,例:只有路名+路号、只有POI;
非规范的地址文本、口语化的地址信息描述,例:阿里西溪园区东门旁亲橙里;
地址文本相关性主要是衡量地址间的相似程度,地址要素解析与地址相关性共同构成了中文地址处理两大核心任务,具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集,这次我们将开放较大规模的标注语料,希望和社区共同推动地址文本处理领域的发展。赛题描述
本评测任务为基于地址文本的相关性任务。即对于给定的一个地址query以及若干个候选地址文本,参赛系统需要对query与候选地址文本的匹配程度进行打分。
多样化的地址文本写法对地址文本的相关性任务提出的挑战如下:
同一个地址存在多种写法,没有给定的改写词表;
地址query一般存在省市区等限制条件,需要结合限制条件分析相关性;
不同地市地址规范不一,对模型泛化性提出更高要求;数据说明
输入:输入文件包含若干个query-地址文本对
输出:输出文本每一行包括此query-地址文本对的匹配程度,分为完全匹配、部分匹配、不匹配
示例:
输入:
Query:江苏省南京市清水亭东路9号金域蓝湾15幢
Doc:江宁区万科金域蓝湾15栋
…………输出:
完全匹配
…………
说明:完全匹配:完全匹配一般是匹配到楼栋号,若原始数据只到poi则匹配到poi
例子1:输入:
Query:江苏省南京市清水亭东路9号金域蓝湾15幢
Doc:江宁区万科金域蓝湾15栋
输出:
完全匹配
**注意:路名+路号+poi,匹配到了路名+路号算完全匹配部分匹配:原始地址给到了楼栋号,备选地址中只能匹配到poi,则为部分匹配
例子2:输入:
Query:江苏省南京市栖霞区西岗街道学森路199号保利罗兰春天13幢二单元
Doc:仙林湖学森路199号保利罗兰春天9号
输出:
部分匹配
**注意: 村级别,如果是村+村组,匹配到了村,算作部分匹配;
同理,poi+subpoi,如果只匹配到了poi,算部分匹配;
村+poi,匹配到村是不匹配,匹配到poi是完全匹配;
村+门牌号+poi,匹配到村是不匹配,匹配到门牌号是部分匹配;
query为村,candidate为村+poi,匹配到村是部分匹配;
村+路+路号,匹配到村、路是部分匹配;不匹配:完全不匹配原文地址
例子2:输入:
Query:辽宁省大连市甘井子区辛寨子街道天虹工业园区53号
Doc:新水泥路666号重工数控工业园
输出:
不匹配
标注数据集由训练集、验证集和测试集组成,整体标注数据大约5万条左右。标注数据集中每条数据的格式为:
{
“text_id”:“1”,
“query”:“华侨村西堤1巷12栋”,
" candidate":[
{
“text”:“华侨新村西堤一巷12号”,
“label”:“部分匹配”
},
{
“text”:“宝安区华侨新村西堤一巷”,
“label”:“部分匹配”
},
{
“text”:“海丰县米巷西12幢”,
“label”:“不匹配”
},
{
“text”:“余姚市大施巷村西片12号楼”,
“label”:“不匹配”
},
{
“text”:“中山市西堤路一巷”,
“label”:“不匹配”
}
]
}