计算机视觉常用数据集总结：包括MS COCO、ImageNet、VOC、人脸识别、行人检测等...

1.PASCAL VOC（权威鼻祖）

PASCAL VOC是一个图像集，由Mark Everingham (University ofLeeds)、Luc van Gool (ETHZ, Zurich)等人创立，有1.7W+张图片，分为20类。PASCALVOC竞赛也是计算机视觉竞赛的鼻祖，从2005年到2012年一共举办了8届，包含了物体分类（Classification）、目标检测（Detection）、图像分割（Segmentation）、Person Layout等任务，后来逐渐被ILSVRC竞赛替代。
计算机视觉常用数据集总结：包括MS COCO、ImageNet、VOC、人脸识别、行人检测等...
下载地址：http://host.robots.ox.ac.uk/pascal/VOC/

百度云下载：VOC2007 train_val_test & VOC2012 train_val
提取码：jz27

2. ImageNet数据集

ImageNet是一个图像集，由斯坦福大学李飞飞创立，有1400W+张样例图片，分为27大类和2W+小类，只能用于非商业研究和教学使用。与ImageNet图像集相应的是著名的ILSVRC竞赛，各种新机器学习算法脱颖而出（AlexNet、ZFNet、GoogleNet、ResNet、…），图像识别率得以显著提高，在ILSVRC竞赛上一举成名是近几年来计算机视觉从业者的梦想。

计算机视觉常用数据集总结：包括MS COCO、ImageNet、VOC、人脸识别、行人检测等...
下载地址：http://www.image-net.org/download-imageurls

3. COCO数据集

官网: http://cocodataset.org

MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。

COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标，328,000影像和2,500,000个label。目前为止有语义分割的最大数据集，提供的类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。

数据集下载地址

Images:

2014 Train images [83K/13GB]
2014 Val images [41K/6GB]
2014 Test images [41K/6GB]
2015 Test images [81K/12GB]
2017 Train images [118K/18GB]
2017 Val images [5K/1GB]
2017 Test images [41K/6GB]
2017 Unlabeled images [123K/19GB]

Annotations:

2014 Train/Val annotations [241MB]
2014 Testing Image info [1MB]
2015 Testing Image info [2MB]
2017 Train/Val annotations [241MB]
2017 Stuff Train/Val annotations [401MB]
2017 Testing Image info [1MB]
2017 Unlabeled Image info [4MB]

语义分割:

5K minival

35K validation-minus-minival

各数据适用情况：

2014 Train/Val：Detection 2015, Captioning 2015, Detection 2016, Keypoints 2016

2014 Testing：Captioning 2015

2015 Testing：Detection 2015, Captioning 2015, Detection 2016, Keypoints 2016

2017 Train/Val：Detection 2017, Keypoints 2017, Stuff 2017

2017 Testing：Detection 2017, Keypoints 2017, Stuff 2017

COCO系列文章阅读：

MS COCO数据集目标检测评估（Detection Evaluation）（来自官网）

MS COCO数据集人体关键点评估（Keypoint Evaluation）（来自官网）

MS COCO数据集输出数据的结果格式（result format）和如何参加比赛（participate）（来自官网）

4.人脸识别数据集

PubFig: Public Figures Face Database
哥伦比亚大学的公众人物脸部数据集，包含有200个人的58k+人脸图像
备注：非限制场景下的人脸识别
链接：http://pan.baidu.com/s/1qYzDU7i 密码：fvja
Large-scale CelebFaces Attributes (CelebA) Dataset
由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。包含有200K张人脸图片，人脸属性有40多种
备注：主要用于人脸属性的识别
链接：http://pan.baidu.com/s/1o79BfWe 密码：4bo9
Colorferet
包含了1000多人的10000多张照片，每个人包括了不同表情，光照，姿态和年龄的照片。
备注：通用人脸库，包含通用测试标准
链接：http://pan.baidu.com/s/1nvmmPK1 密码：snyi
Multi-Task Facial Landmark (MTFL) dataset
包含了将近13000张人脸图片，均采自网络。
备注：人脸对齐
链接：http://pan.baidu.com/s/1kU4X6Az 密码：et35
Labeled Faces in the Wild Home (LFW)
5k+人脸，超过13，000张人脸图像
备注：标准的人脸识别数据集
链接：http://pan.baidu.com/s/1bpMyYcv 密码：mkhw
CMUVASC & PIE Face dataset
该数据集中包含了来自68个人的40000张照片，其中又包括了每个人的13种姿态条件，43种光照条件和4种表情下的照片
备注：非限制场景下的人脸识别
链接：http://pan.baidu.com/s/1o7S7YUQ 密码：jya4
YouTube Faces
1,595个人，3,425段视频
备注：非限制场景下的人脸识别
链接：http://pan.baidu.com/s/1jIRAybW 密码：c27o
IMDB-WIKI
包含：IMDb中20k+个名人的460k+张图片和*62k+张图片, 总共：523k+张图片
备注：名人年龄、性别
链接：http://pan.baidu.com/s/1hsQs8qK 密码：g74g
FDDB
2845张图片中的5171张脸
备注：标准人脸检测评测集
链接：http://pan.baidu.com/s/1bCHtds 密码：2os1

行人检测数据集

行人检测( Pedestrian Detection) 是计算机视觉领域内应用比较广泛和比较热门的算法，一般会与行人跟踪，行人重识别等技术进行结合，来对区域内的行人进行检测识别跟踪，广泛应用于安防，零售等领域。由于行人的外观易受穿着、尺度、遮挡、姿态和视角等影响，行人检测也具有一定的挑战性。

MIT-CBCL Pedestrian Database（MIT行人数据库）

该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64x128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。
USC Pedestrian Detection Test Set（USC行人数据库）

该数据库包含三组数据集（USC-A、USC-B和USC-C），以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡，拍摄角度为正面或者背面；USC-B的图片主要来自于CAVIAR视频库，包括各种视角的行人，行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角度），行人之间无相互遮挡。
INRIA Person Dataset（INRIA行人数据库）

该数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件。训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人），负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚，但可用OpenCV正常读取和显示。
Caltech Pedestrian Detection Benchmark（Caltech行人数据库）

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640x480，30帧/秒。标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。
CUHK Occlusion Dataset

该数据集出自于香港中文大学，可应用于行为分析和行人检测。包含了1063张行人图片。
CUHK Person Re-identification Datasets

这也是出自于香港中文大学的数据集，使用了两个（不相交的）视角，对971个行人进行了记录。每个行人在每个视角中均进行了两次取样。

计算机视觉常用数据集总结：包括MS COCO、ImageNet、VOC、人脸识别、行人检测等...

点击阅读原文，即可转至数据集下载链接。

计算机视觉常用数据集总结：包括MS COCO、ImageNet、VOC、人脸识别、行人检测等...

1.PASCAL VOC（权威鼻祖）

2. ImageNet数据集

3. COCO数据集

COCO系列文章阅读：

4.人脸识别数据集

行人检测数据集

相关推荐