“英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析
-
大赛概况
人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。针对这些难点,阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含中文NLP的2个子任务,分别是:地址要素解析、地址相关性任务。
赛程安排
本次大赛分为报名组队、初赛、复赛和决赛三个阶段,具体安排和要求如下:
报名组队——————5月17日—7月7日
初赛阶段——————5月24日—7月9日
复赛阶段——————7月12日—8月13日
决赛答辩——————10月下旬报名组队与实名认证(2021年5月17日—7月7日)
报名方式:5月17日阿里天池平台(https://tianchi.aliyun.com/)将开放本次比赛的组队报名、登录比赛官网,完成个人信息注册,即可报名参赛;
选手可以单人参赛,也可以组队参赛。组队参赛的每个团队2-3人,每位选手只能加入一支队伍;
选手需确保报名信息准确有效,组委会有权取消不符合条件队伍的参赛资格及奖励;
选手报名、组队变更等操作截止时间为7月7日晚上23:59:59;同样,各队伍(包括队长及全体队伍成员)需要在7月7日晚上23:59:59前完成实名认证(认证入口:天池官网-右上角个人中心-认证-支付宝实名认证),未完成认证的参赛团队将无法进行后续的比赛;
大赛官方钉钉群请搜索Group Number:32039787,或扫描以下二维码加入,最新通知将会第一时间在群内同步:
enter image description here初赛阶段(2021年5月24日-2021年7月9日,UTC+8)
初赛的几个关键时间点: 5月24号天池平台将开放竞赛数据集和系统测评。
选手报名成功后,参赛队伍通过天池平台下载数据,本地调试算法,在线提交结果。
初赛提供训练数据集,供参赛选手训练算法模型;同时提供测试数据集,供参赛选手提交评测结果,参与排名。
初赛时间为2021年5月24日-2021年7月9日,系统每天提供2次提交机会,系统进行实时评测并返回成绩,排行榜每小时进行更新,按照评测指标从高到低排序。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。
初赛淘汰:2021年7月9日上午9:59:59,初赛阶段未产出成绩的队伍将被取消复赛参赛资格。
初赛结束,初赛排名前100名的参赛队伍将进入复赛,入围复赛最终名单将在7月9日21:59:59确认。复赛阶段(2021年7月12日—2021年8月13日,UTC+8)
复赛阶段测试数据不可下载,采用docker镜像的提交方式,“容器镜像”提交说明在复赛前公布。第一次接触docker可直达教程(链接)。
本阶段,系统每天提供2次实时评测,每小时更新排行榜,按照评测指标从高到低排序。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示,但最终入围决赛的排行榜则是根据参赛团队在复赛最后一周(8月9日-8月13日)提交的历史最优成绩而决定。复赛提交截止时间8月13日中午11:59:59。本阶段内,选手需保证最后提交的是最优模型对应的完整端到端代码(包含数据处理和模型训练等)并能运行复现最优成绩。复赛结束后,该阶段最优成绩对应提交的镜像将直接用于代码审核,如最优成绩对应的镜像代码不是完整代码运行得出,将会直接淘汰,因此如果最后阶段出现无法复现的最优成绩可在复赛提交结束前联系组委会协助删除最优记录,复赛结束后不再受理。
榜单将在复赛截止后公布。复赛结束后,组委会将对排行榜TOP 20参赛队伍进行最优提交成绩的模型和完整代码审核,该阶段最优成绩对应提交的镜像将直接用于代码审核,选手需保证提交最优模型对应完整端到端代码(包含数据处理和模型训练等)且能运行复现最优成绩,不接受随机成绩。如最优成绩对应的镜像代码不是完整代码运行得出,将会直接淘汰。对于未提交、复现未成功或审核不通过的队伍,将取消决赛资格和比赛奖励。
最终审核通过的前5名参赛队伍晋级决赛。
决赛答辩(暂定10月)
入围线下决赛答辩名单通知时间为8月31日晚上23:59:59前。
入围团队需要在10月1日17:59:59前需要提交答辩PPT,并在现在线下决赛前一天参与决赛彩排完成设备调试。线下决赛具体时间将在复赛结束后公布。
决赛评分参考:复赛榜单、代码质量和答辩。
答辩需要准备答辩材料,包括答辩PPT(中英文均可)、参赛总结、算法核心。本次赛事决赛入围团队的最终得分将由复赛成绩、决赛答辩成绩加权得出,评分权重为:复赛成绩占80%,决赛答辩成绩占20%。
另:本次赛事若要求论文环节,则将以CCKS 2021的通知要求为准。
参赛对象
大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛。
阿里巴巴集团、蚂蚁金服、菜鸟等BU员工均可报名参赛,规则如下:
阿里系员工报名参赛,可参与排名,不得领取奖金,但有资格领取纪念奖;
选手完成阿里云账号注册,并在天池个人中心页面内邮箱改为阿里巴巴员工邮箱,组织单位体现所在BU(“天池平台-个人中心-所在机构”);
队伍内有一位阿里系员工(包括非正式员工),即属于阿里巴巴集团内部参赛团队。
*注:大赛主办和技术支持单位如有机会接触赛题背景业务、产品、数据的员工,则自动退出比赛,放弃参赛资格。
赛题背景
地址是日常生活中一种重要的文本信息,诸多场景需要登记地址,如电商购物、外卖配送、人口普查、水电气开户等。常见的地址一般包含以下几类信息:
行政区划信息,如省、市、县、乡镇信息;
路网信息,如路名,路号,道路设施等;
详细地址信息,如POI (兴趣点)、楼栋号、户室号等;
非地址信息,如补充说明,误输入等;
地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。地址要素解析与地址相关性共同构成了中文地址处理两大核心任务,具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集,这次我们将开放较大规模的标注语料,希望和社区共同推动地址文本处理领域的发展。赛题描述
中文地址要素解析任务的目标即将一条地址分解为上述几个部分的详细标签,如:
输入:浙江省杭州市余杭区五常街道文一西路969号淘宝城5号楼,放前台
输出:Province=浙江省 city=杭州市 district=余杭区 town=五常街道 road=文一西路road_number=969号 poi=淘宝城 house_number=5号楼 other=,放前台
(详细的标签体系及标注规范将随标注数据一起公布)数据说明
标注数据集由训练集、验证集和测试集组成,整体标注数据大约2万条左右。地址数据通过抓取公开的地址信息(如黄页网站等)获得, 均通过众包标注生成,详细标注规范将会在数据发布时一并给出。
提交说明
选手需要提交测试数据的预测结果,文件命名为:队伍名_addr_parsing_runid.txt, 文件编码采用utf-8编码(无BOM头)。
结果文件分为3列,列分隔符为不可见字符,\u0001, 第一列、第二列与测试文件对应,分别为数据id, 地址原文。第三列为系统预测结果,使用BIEO标签体系,标签与类型采用“-”分隔,tag之间采用空格分隔。示例如下:
1^ A浙江杭州阿里^AB-prov E-prov B-city E-city B-poi E-poi
提交自查提交遇到格式问题请先自查:
1., 分隔符不对, 正确分隔符为\u0001
2, 提交句子数量不对, 正确句子数为50000
3, 提交的预测tags序列长度与原句长度不对应
4. 出现非法tag, 如START, SEP等