常用CV数据集(持续更新中)

图像数据集:

1.MNIST

MNIST数据集官网
入门级的数据集,相信很多学习AI的人使用的第一个数据集就是MNIST。
NIST的全称是National Institute of Standards and Technology Special Database 19(美国标准与数据研究院),即 NIST Handprinted Forms and Characters Database, MNIST是其子集,即 miniNIST,其仅仅包含10个阿拉伯数字(即十类对象),每类对象含6000张训练图片,1000张测试图片,因此训练集共有60000张图片,测试集10000张图片。图片的大小为28x28的灰度图片(官网上说原始的图片是20x20的,但是图片中心化后放到了28x28的方格里)。
网站详细介绍了MNIST数据集的来源和数据格式,直接下载使用时需要根据官网给出的数据格式来进行预处理。
如果觉得MNIST的数据过于简单,想尝试更复杂的模型,可以使用NIST数据集,NIST的数据集有5中数据组织方式
hsf_page:包含了未经处理的整页的手写笔记
By write: 根据手写人来组织数据(可以用于笔迹辨认)
By field: 根据图片大类类组织,大类有:数字(digits),upper(大写),lower(小写),const(包括upper和lower)
By class:根据图片小类来组织,包括‘0-9’,‘a-z’,'A-Z’共62类。
By merge:由于一些数字大小写很难分辨,包括:C I J K L M O P S X Y Z U V W,因此将这些数字的大小写合并,最后得到47个类
NIST下载链接

2.CIFAR

CIFAR下载链接
分为CIFAR-10和CIFAR-100 是Alex Krizhevsky(就是AlexNet的发明者)等人创建的80 Million Tiny Images数据集的子集,=分别包含10类和100类对象。
CIFAR-10中每类对象都有6000张32x32的彩色图片组成,其中5000张作为训练集,1000张作为测试集。
CIFAR-10的对象包括: airplane, automobile, bird, cat, deer, dog, flog, horse, ship, truck
而CIFAR-100每类对象仅有600张图片,训练集和测试集总量同样是50000和10000.与CIFAR-10不同的是,CIFAR-100的对象被分为20种超类,因此每张图片都有两个标签,“粗糙”标签对应其超类,“精细”标签对应其精确类型,例如一张鲸鱼的图片有“水生哺乳动物”和“鲸鱼”两个标签。
常用CV数据集(持续更新中)官网中给出了3种类型的数据集,分别适用于Python, Matlab和C(二进制文件)。

3.Caltech

Caltech-101下载链接
Caltech-256下载链接
Caltech-101和Caltech-256是加州理工大学的图像数据集,官网中给的描述不是很详细,总的来说,前者有101类目标,后者有256类目标,每类目标的样本数从40-800不等。官网没有明确地划分出训练集和测试集,只给出了建议用于训练/测试地图片标号。官网还给出了一些基于该数据集的论文和结果,有兴趣可以自行查看。
数据集比较老,用的人也比较少。

4.PASCAL

PASCAL 数据集下载地址
PASCAL 是 Pattern Analysis, Statistic Modeling and Computational Learning的缩写,因PASCAL VOC(Visual Cbject Classes Challenge)出名,该竞赛从2005年开始举办,每年一届,直到2012年结束。任务包括分类,检测和分割。
以PASCAL VOC2012为例,其训练集包括11530张图片,其中含有27450个ROI和6929个分割区域,包含20种物体。

5.ImageNet

ImageNet官网地址
ImageNet是目前世界上最大的标注图片数据库。收录了20000多类目标超过1400万的彩色图片。这些图片都经过人工标注并进行了质量管控,其目标是为每一类目标提供1000张以上的标注图片。
看过深度学习论文的人应该都知道,大名鼎鼎的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)采用的数据集就是ImageNet的子集。ImageNet上给出了历届ILSVRC(2010-2017)所用的数据集供人下载(不过好像已经失效了)。

ImageNet是一个用于大规模多分类(1000+类)任务的数据集。往年主流的网络如AlexNet, VGGNet, ResNet,GoogLeNet等都在ILSVRC上以其卓越的性能进入人们的眼球。SENet已经将ImageNet子集的top-5分类错误率降低至了2.25%以下,但top-1错误率一直在20%附近徘徊。
ILSVRC竞赛包括图片分类/目标定位,目标检测,视频目标检测,场景分类。

6. COCO

7.