“英特尔创新大师杯”深度学习挑战赛 赛道1:通用场景OCR文本识别任务
-
“英特尔创新大师杯”深度学习挑战赛 赛道1:通用场景OCR文本识别任务
大赛概况
OCR (Optical Character Recognition,光学字符识别)是最早的计算机视觉任务之一。人类使用电子设备(图像采集装置)采集现实场景中打印的字符,然后通过检测字符的形状,用字符识别的方法将其翻译成计算机文字。随着技术的发展,OCR已经逐渐应用到社会的各种需求中。如今,我们可以在各个行业领域中看到OCR的广泛用途,包括:证件、车牌识别;物流分拣;智慧医疗;无纸化办公;文档检索等等。因此,在互联网时代中,OCR的应用算法,具有很大的商业价值。
在一些简单环境下,例如电子文档的识别,OCR的识别的准确率已经可以达到很高的水准。但是,OCR技术依然面临着很多难点,一些以往的算法在处理复杂图文场景里的文字时,依旧显得力不从心。因此,阿里云计算平台事业部团队联合英特尔举办此次OCR任务竞赛,旨在解决复杂场景中通用OCR识别的难点,以满足人们在不同行业应用中的需求。
赛程安排
本次大赛分为报名组队、初赛、复赛和决赛三个阶段,具体安排和要求如下:
报名组队——————5月17日—7月26日
初赛阶段——————5月24日—7月30日
复赛阶段——————8月16日—9月30日
决赛答辩——————10月下旬报名组队与实名认证(2021年5月17日—7月26日)
报名方式:5月17日阿里天池平台(https://tianchi.aliyun.com/)将开放本次比赛的组队报名、登录比赛官网,完成个人信息注册,即可报名参赛;
选手可以单人参赛,也可以组队参赛。组队参赛的每个团队2-3人,每位选手只能加入一支队伍;
选手需确保报名信息准确有效,组委会有权取消不符合条件队伍的参赛资格及奖励;
选手报名、组队变更等操作截止时间为7月26日晚上23:59:59;
各队伍(包括队长及全体队伍成员)需要在7月26日晚上23:59:59前完成实名认证(认证入口:天池官网-右上角个人中心-认证-支付宝实名认证),未完成认证的参赛团队将无法进行后续的比赛;赛题背景
在现实场景中,我们会遇到很多的文字信息,例如:书本中的文字,海报中的文字,票据中的文字等等。可以说,现实场景中的文字是人们生活中必不可少的部分;人们的生活和工作中,很多时候都是需要获取这些文字的信息,并使用它们。而在使用它们的时候,往往需要将它们转化成为存储在电子设备中的文本信息。OCR任务旨在解决这类问题:将现实场景中的文字信息,转化为电子设备可以处理的文本信息。更进一步地,我们希望找到一种通用OCR算法,它能够解决不同现实场景和应用场景下的文字信息,以满足人们在不同行业应用中的需求。
赛题描述
本次比赛的主要目的是以端到端的方式检测和识别所提供图像中的每个文本实例。主要任务为中文脚本文本识别:
输入:场景文字图像
输出:中文脚本的每个文本实例的空间位置以及每次检测的预测单词的空间位置。
数据说明
本次比赛,我们提供了多个场景下的OCR数据集,包括:文本书籍、票据、广告信息等。数据由阿里云计算平台事业部的PAI团队官方提供,且均已存在标注信息。
提交说明
要求参与者使用一个json文件提交所有图像的预测结果,结果格式如下:
{
“ res_1”:[
{“points”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“confidence”:c,“transcription”:“ trans1”},
…
{“points”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“confidence”:c,“transcription”:“ trans2”}],
“ res_2”:[
{“points”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“confidence”:c,“transcription”:“ trans3”}],
……
}
提交需注意:本赛道对外提供的测试集name_test.csv下,用户的结果文件对应为name_test.json。选手上传的文件需要和真实标注命名一致。