计算机视觉

深度学习数据集集锦

MNIST

标签：学术基准经典较旧

合理性测试（sanity check）最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易，但不要因为你的模型在 MNIST 运行良好，就认为它事实上可用。

地址

CIFAR 10 & CIFAR 100

标签：经典较旧

32x32 彩色图像。虽然用得人比以前少了很多，但仍然能用它做有趣的合理性测试。

地址

ImageNet

标签：实用学术基准经典

这个用不着介绍，新算法的首选图像数据集。Luke de Oliveira 表示，许多图像 API 公司从 REST 交互界面搞来的标记，与 ImageNet 1000 目录中的 WordNet 层级很接近，让人怀疑。

地址

KITTI

标签：目标检测

地址

FDDB:Face Detection Data Set and Benchmark

标签：人脸识别

地址

CBSR

标签：无

地址

AWS Public Datasets

标签：公开数据集

地址

Tiny Images Dataset

标签：无

地址

Datasets

标签：无

地址

SNAP:Stanford Large Network Dataset Collection

地址

UCI Machine Learning Repository

地址

Datasets:CV ONLINE

标签：无

地址

LSUN

标签：无

场景理解，许多其它附加任务（比如房间布局预估，显着性预测 “saliency prediction”），以及与之关联的竞赛。

地址

PASCAL VOC

标签：学术基准

一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用，但作为基准很不错。

地址

SVHN

标签：学术基准

谷歌街景视图中的住宅号。可以把它当做野生的递归（ recurrent） MNIST。

地址

MS COCO

标签：无

一般性的图像理解/说明，有相关竞赛。

地址

Visual Genome

标签：实用

非常细致的视觉知识库，对超过十万张图像有深度注解。

地址

Labeled Faces in the Wild

标签：实用学术基准经典较旧

修剪过的面部区域（使用 Viola-Jones），用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像，这是作为他的子集。开发者经常用它来训练面部匹配系统。
地址

自然语言

深度学习数据集集锦

Text Classification Datasets

标签：实用学术基准

来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准，它是最常用的。样本大小为 120K 到 3.6M，包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的数据集。

地址

WikiText

标签：实用学术基准

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址

Question Pairs

标签：实用

Quora 发布的第一个数据集，包含副本/语义近似值标记。

地址

SQuAD

标签：实用学术基准

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span，或者一段文本。

地址

CMU Q/A Dataset

标签：无

人工创建的仿真陈述问题/回答组合，还有维基百科文章的难度评分。

地址

Maluuba Datasets

标签：实用

为 NLP 研究人工创建的复杂数据集。

地址

Billion Words

标签：实用学术基准

大型、通用型建模数据集。时常用来训练散布音（distributed）的词语表达，比如 word2vec 或 GloVe。

地址

Common Crawl

标签：实用学术基准

PB（拍字节）级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集，是一个比较有用的网络数据集。

地址

bAbi

标签：学术基准经典

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址

The Children’s Book Test

标签：学术基准

Project Gutenberg（一项正版数字图书免费分享工程）儿童图书里提取的成对数据（问题加情境，回答）基准。对问答、阅读理解、仿真陈述（factoid）查询比较有用。

地址

Stanford Sentiment Treebank

标签：学术基准经典较旧

标准的情绪数据集，对每一句话每一个节点的语法树，都有细致的情感注解。

地址

20 Newsgroups

标签：经典较旧

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准，在这方面比较有用。

地址

Reuters

标签：经典较旧

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址

##IMDB

标签：经典较旧

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠，让位于更大的数据集。

地址

UCI’s Spambase

标签：经典较旧

较老的、经典垃圾邮件数据集，源自于 UCI Machine Learning Repository。由于数据集的管理细节，在学习私人订制垃圾信息过滤方面，这会是一个有趣的基准。

地址

语音

深度学习数据集集锦
大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

标签：学术基准较旧

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

地址

LibriSpeech

标签：学术基准

有声图书数据集，包含文字和语音。接近 500 个小时的清楚语音，来自于多名朗读者和多个有声读物，根据图书章节来组织。

地址

VoxForge

标签：实用学术基准

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力，会比较有用。

地址

TIMIT

标签：学术基准经典

只含英语的语音识别数据集。

地址

CHIME

标签：实用

含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音：真实，是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音；模拟，是通过把多个环境与语音结合来生成；清晰，是指没有噪音的清楚录音。

地址

TED-LIUM

标签：无

TED 演讲的音频转录。包含 1495 场 TED 演讲，以及它们的完整字幕文本。

地址

网络和图

深度学习数据集集锦

Amazon Co-Purchasing 和 Amazon Reviews

标签：学术基准

从亚马逊“买了这个的用户还买了XXX”功能抓取的数据，还有相关商品的评价数据。对于试验网络中的推荐系统有价值。

地址1

地址2

Friendster 社交网络数据集

标签：无

在成为游戏网站之前，Friendster 发布了 103,750,348 名用户朋友名单的匿名数据。

地址

地理空间数据

深度学习数据集集锦

OpenStreetMap

标签：实用

整个地球的矢量数据，处于免费协议下。它的旧版本包含美国人口统计部门的 TIGER 数据。

地址

Landsat8

标签：实用

整个地球表面的卫星拍照，每隔几周更新一次。

地址

NEXRAD

标签：实用

多普勒天气雷达对美国大气情况的扫描。

地址

Ref:[1] http://www.leiphone.com/news/201702/Can849ZwMlp66QBR.html

深度学习数据集集锦

计算机视觉

MNIST

标签：学术基准 经典 较旧

CIFAR 10 & CIFAR 100

标签：经典 较旧

ImageNet

标签：实用 学术基准 经典

KITTI

标签：目标检测

FDDB:Face Detection Data Set and Benchmark

标签：人脸识别

CBSR

标签：无

AWS Public Datasets

标签：公开数据集

Tiny Images Dataset

标签：无

Datasets

标签：无

SNAP:Stanford Large Network Dataset Collection

UCI Machine Learning Repository

Datasets:CV ONLINE

标签：无

LSUN

标签：无

PASCAL VOC

标签：学术基准

SVHN

标签：学术基准

MS COCO

标签：无

Visual Genome

标签：实用

Labeled Faces in the Wild

标签：实用 学术基准 经典 较旧

自然语言

Text Classification Datasets

标签：实用 学术基准

WikiText

标签：实用 学术基准

Question Pairs

标签：实用

SQuAD

标签：实用 学术基准

CMU Q/A Dataset

标签：无

Maluuba Datasets

标签：实用

Billion Words

标签：实用 学术基准

Common Crawl

标签：实用 学术基准

bAbi

标签：学术基准 经典

The Children’s Book Test

标签：学术基准

Stanford Sentiment Treebank

标签：学术基准 经典 较旧

20 Newsgroups

标签：经典 较旧

Reuters

标签：经典 较旧

标签：经典 较旧

UCI’s Spambase

标签：经典 较旧

语音

2000 HUB5 English

标签：学术基准 较旧

LibriSpeech

标签：学术基准

VoxForge

标签：实用 学术基准

TIMIT

标签：学术基准 经典

CHIME

标签：实用

TED-LIUM

标签：无

推荐和排名系统

标签：学术基准经典较旧

标签：经典较旧

标签：实用学术基准经典

标签：实用学术基准经典较旧

标签：实用学术基准

标签：实用学术基准

标签：实用学术基准

标签：实用学术基准

标签：实用学术基准

标签：学术基准经典

标签：学术基准经典较旧

标签：经典较旧

标签：经典较旧

标签：经典较旧

标签：经典较旧

标签：学术基准较旧

标签：实用学术基准

标签：学术基准经典

标签：经典较旧

标签：实用学术基准经典