OCR 识别数据集、统计脚本总结供下载
1. IIIT5K
- Scene Text Recognition using Higher Order Language Priors
- 简介,5K涨裁剪好的文字图片,如上图。2K张训练集,3K张测试集。测试集中包含了街景,网络图片等。仅标注62个字符,52个字母以及10个数字。
- 我这边整理了一份可用的,供下载,GT为txt格式 密码:u461。
2. Curve Text (CUTE80)
- 一般情况下这个识别的标注很难找到,我这边整理了一份。供下载,GT为txt格式 供下载,GT为txt格式 密码:g26d。
-
- 供80个图像,288个切好的文本区域,该数据集专注曲线文本识别,检测。不过识别标注统一不区分大小写,后面我会修复掉这个标注,提供一份 case sensitive 的GT。