中文场景文字识别技术创新大赛,总奖池5.4万!

点击我爱计算机视觉标星,更快获取CVML新技术


中文场景文字识别技术创新大赛,总奖池5.4万!

竞赛简介

为贯彻执行国家创新驱动发展战略,搭建人工智能领域综合性、集群化、市场化的产学研用综合协同创新平台,中国人工智能学会于2018年创办了首届中国“AI+”创新创业大赛。

今年,由中国人工智能学会主办、百度深度学习平台飞桨(PaddlePaddle)承办的第二届中国“AI+”创新创业大赛-AI技术创新大赛将于7月至11月举行。本届大赛将围绕中文场景文字识别赛题展开,作为人工智能领域重要的研究方向之一,该项技术近年来得到了快速发展,新模型和新方法层出不穷。

飞桨PaddlePaddle作为国内唯一的功能完备开源深度学习平台,为本次参赛选手提供了集深度学习核心框架、工具组件和服务平台一站式服务。百度大脑AI Studio作为官方指定唯一竞赛日常训练平台,提供高效的学习和开发环境,更有亿元免费Tesla V100算力赠送,助力选手取得优异成绩。

报名地址:

https://aistudio.baidu.com/aistudio/competition/detail/8

(点击文末阅读原文,直达官网参赛

赛题背景

近年来,中文场景文字识别技术在人们的日常生活中受到广泛关注,具有丰富的应用场景,如:拍照翻译、图像检索、场景理解等。然而,中文场景中的文字面临着包括光照变化、低分辨率、字体以及排布多样性、中文字符种类多等复杂情况。如何解决上述问题成为一项极具挑战性的任务。

本次AI技术创新大赛以 中文场景文字识别 为主题,提供大规模的中文场景文字识别数据,旨在为研究者提供学术交流平台,进一步推动中文场景文字识别算法与技术的突破。

比赛任务

文字识别的主要任务是对图像区域中的文字行进行预测,返回文字行的内容。

数据集介绍

本次竞赛数据集共包括33万张图片,其中21万张图片作为训练集,12万张作为测试集。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片,如下图1所示:

中文场景文字识别技术创新大赛,总奖池5.4万!

(a) 标注:魅派集成吊顶

中文场景文字识别技术创新大赛,总奖池5.4万!

(b) 标注:母婴用品连锁

图1

注明:可以使用公开数据集或者公开数据合成工具生成的数据集进行训练;不允许使用私有数据用于训练,如果使用,必须提供数据集链接。

  • 大赛训练集(7月10日开放下载)链接

  • 大赛测试集(8月6日开放下载)链接

标注文件

平台提供的标注文件为.txt文件格式。样例如下:

h w name value
128 48 img_1.jpg 文本1
56 48 img_2.jpg 文本2

其中,文件中的四列分别是图片的宽、高、文件名和文字标注。

赛程赛制

1.本次大赛不分初赛、复赛,最终榜单前十的队伍有机会参加由中国人工智能学会举办的全国路演活动,全国路演的具体安排、时间另行通知。在各阶段,参赛队伍须按照要求按时、合规地提交参赛作品。

2.日程表

时间 日程
2019/7/5 启动报名
2019/7/10 开放训练集数据,选手可训练调试模型
2019/8/5 截止报名
2019/8/6 开放测试集数据,选手可提交结果
2019/9/20 截止提交结果
2019/9/23 排行榜前20名队伍截止提交材料
2019/9/27 公布最终排名前十名获奖队伍名单
10月下旬或11月上旬 全国路演、颁奖

3.百度公司对本比赛规程拥有最终解释权。

参赛方式

1.参赛对象

本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等人员均可报名参赛。大赛相关单位有机会提前接触赛题和数据的人员不得参加比赛,其他员工可以参与比赛排名,但不领取任何奖项。

2.参赛要求

(1)支持以个人或团队(线下自由组队)的形式参赛,每支参赛队伍的人数不超过5人,允许跨单位自由组队,每人只能参加一支队伍。

(2)参赛选手报名须保证所提供的个人信息真实、准确、有效。

3.比赛报名

(1)2019年7月5日至2019年8月5日,登陆AI Studio报名,参赛团队使用已有百度账号或新注册百度账号报名,在线完善相关信息,即可报名参赛。若以团队形式参赛,须指定其中一人为队长,队长作为团队发言人与通讯联络人,注册的百度账号团队内部共享使用。参赛期间登录百度的平台均需保持与该账号一致。

(2)百度大脑AI Studio作为官方指定唯一竞赛日常训练平台,集开放数据、开源算法、免费算力为一体,帮助开发者提供高效的学习和开发环境。登录AI Studio查看更多内容。

(3)百度大脑AI Studio还为参赛选手提供了免费GPU Tesla V100算力:

  • 登录即送算力,每天登录AI Studio并运行Notebook即可获得12小时GPU算力,连续登录5天额外领取48小时GPU算力(有效期7天)

  • 想要获取更多算力? 登录百度账号,点击 此处 申请最高长达120小时GPU算力

(4)竞赛官方讨论专区(百度AI开发者社区)

(5)官方交流QQ群:871326661

4.其他

本次竞赛不收取任何报名费用,受邀参加全国路演的选手期间食宿由百度竞赛组委会安排,往返交通费由百度竞赛组委会报销,其他费用自理。

奖项设置

名次 奖金
第1名 ¥15,000
第2-3名 ¥10,000
第4-6名 ¥5,000
第7-10名 1,000元京东实体卡

*需特别注意

1.以上所有提及金额均为税前金额。

2.获奖评定需选手按要求提供材料及团队成员名单。

反作弊声明

• 参与者禁止注册多账户报名,经发现将取消成绩并严肃处理 • 参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞等不良途径提高成绩排名,经发现将取消成绩并严肃处理 • 可以接触到赛题相关数据的人员,其提交作品将不计入排行榜及评奖

其他

百度在法律法规许可范围内对本比赛规程享有解释权。


竞赛交流群

关注最新的机器学习、计算机视觉竞赛、找人组队、技术交流,欢迎加入52CV的竞赛交流群,扫码添加CV君拉你入群,

请务必注明:竞赛

中文场景文字识别技术创新大赛,总奖池5.4万!

喜欢在QQ交流的童鞋,可以加52CV官方QQ群805388940

(不会时时在线,如果没能及时通过验证还请见谅)

中文场景文字识别技术创新大赛,总奖池5.4万!

长按关注我爱计算机视觉