\u200E
比赛报名 | 中文场景文字识别大赛官方基线正式发布
发布日期:2019-07-23T16:00:00.000+0000 浏览量:1332次

7月5日,由中国人工智能学会主办、百度深度学习平台飞桨(PaddlePaddle)承办的2019第二届中国“AI+“创新创业大赛-中文场景文字识别技术创新大赛启动。本届大赛围绕中文场景文字识别赛题展开,参赛选手需使用飞桨预测图像区域并返回文字行内容。

7月24日,组委会正式发布官方基线,帮助选手快速熟悉比赛环境,助力取得优异成绩。

官方基线下载地址https://aistudio.baidu.com/aistudio/datasetdetail/8429

点击下载baseline_code.zip文件

报名传送门https://aistudio.baidu.com/aistudio/competition/detail/8

基线使用教程

Step1:登录https://aistudio.baidu.com/,创建Notebook项目,添加公开数据集《中文场景文字识别技术创新大赛_训练集》,运行项目。

Step2:解压训练数据集、baseline_code.zip压缩包

!tarxf data/data8429/train_images.tar.gz -C {解压路径}

!tarxf data/data8429/baseline_code.zip -C {解压路径}

Step3:建立数据集索引

本次比赛不限制词表,选手根据自行理解生成统计数据集中字符,并分配任意数字索引,将训练数据处理成数字。

Step4:根据{解压路径}修改train.py中的数据集路径,执行训练代码

!python{解压路径}/baseline_code/ocr_ctc_online/train.py

使用过程中如有任何疑问,欢迎加入本次大赛官方QQ群在线讨论(871326661)。

赛题介绍

近年来,中文场景文字识别技术在人们的日常生活中备受关注,具有丰富的应用场景,如:拍照翻译、图像检索、场景理解等。但该场景下的文字也面临着诸如问题,包括光照变化、低分辨率、字体以及排布多样性、中文字符种类多等复杂情况。如何解决上述问题成为一项极具挑战的任务。

本次大赛提供大规模的中文场景文字识别数据,包括21万张训练集图片和8万张测试集图片。数据集均采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等)截取得来。参赛选手需使用飞桨对图像区域中的文字行进行预测,返回文字行的内容。

赛程透露

2019/7/5 启动报名

2019/7/10 开放训练集数据,选手可训练调试模型

2019/7/24 发布官方基线

2019/8/5 截止报名

2019/9/20 截止提交结果

2019/9/23 排行榜前20名队伍截止提交材料

2019/9/27 公布最终排名前十获奖队伍名单

2019/10下旬或11月上旬 全国路演、颁奖

奖金设置

本次大赛不分初赛、复赛,最终排名第一的个人或团队将获得¥15,000元奖金,前十名队伍均有机会受邀参加下半年举办的全国路演活动。

免费GPU算力助力选手参赛

登录即送算力,每天登录AI Studio并运行Notebook即可获得12小时GPU算力,连续登录5天额外领取48小时GPU算力(有效期7天)。访问https://aistudio.baidu.com/aistudio/questionnaire?activityid=458申请最高长达120小时GPU算力(需登录百度账号)。

本次比赛要求必须提交使用深度学习平台飞桨训练的模型。飞桨是国内唯一功能完备的端到端开源深度学习平台,集深度学习训练和预测框架、模型库、工具组件、服务平台为一体,其兼具灵活和效率的开发机制、工业级应用效果的模型、超大规模并行深度学习能力、推理引擎一体化设计以及系统化的服务支持,致力于让深度学习技术的创新与应用更简单。飞桨将为本次参赛选手提供一站式开发服务。

AI Studio是基于百度深度学习平台飞桨的一站式AI开发平台,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。有关AI Studio更多信息,欢迎访问https://aistudio.baidu.com/

联系我们

欢迎加入竞赛官方交流QQ群(871326661),在线讨论。

2019第二届中国“AI+“创新创业大赛-中文场景文字识别技术创新大赛期待你的参与!