运维开发网

Hinton 十年前整理的数据集,为什么现在仍是经典?

运维开发网 https://www.qedev.com 2020-09-16 08:37 出处:51CTO 作者:HyperAI超神经
https://mp.weixin.qq.com/s/-ayFze2b8ZrIsz0pKAUwMgBy超神经内容提要:十一年前由深度学习之父Hinton牵头整理的CIFAR-10和CIFAR-100数据集,被称为图像分类的神级入门数据集。今天我们来全面了解一下。关键词:CIFAR-10/CIFAR-100数据集CIFAR系列数据集的诞生CIFAR-10和CIFAR-100数据集发布于2009年,由

https://mp.weixin.qq.com/s/-ayFze2b8ZrIsz0pKAUwMg

By 超神经

内容提要:十一年前由深度学习之父 Hinton 牵头整理的 CIFAR-10 和 CIFAR-100 数据集,被称为图像分类的神级入门数据集。今天我们来全面了解一下。

关键词:CIFAR-10/CIFAR-100 数据集

CIFAR 系列数据集的诞生

CIFAR-10 和 CIFAR-100 数据集发布于 2009 年,由多伦多大学计算机科学系的 Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever 和 Vinod Nair 等人收集。

数据集是以资助该项目的加拿大高级研究所(Canadian Institute for Advanced Research)的名字命名的。

值得一提的是,Alex Krizhevsky 和 Ilya Sutskever 都是 Hinton 的博士,他们在业界也是大佬级人物,是 Hinton 的得意门生。

Alex Krizhevsky 是著名的 Alexnet 一作,而 Ilya Sutskever 是 OpenAI 的联合创始人兼董事。

当时,他们师徒看到被广泛用于图像分类的经典数据集 MNIST 存在几个缺陷:

  • 只有灰度图像;
  • 类别少、多样性低,只是手写数字;
  • 并非真实数据,没有真实数据的统计特性。

要将 MNIST 数据集用于评估越来越深的神经网络,当然不太合适,因此需要更大的、真实的、更具多样性的彩色数据集。

于是,Hinton 便带领两位弟子,收集并整理出了 CIFAR-10 和 CIFAR-100 数据集。

2009 年,CIFAR 数据集发布,包括 CIFAR -10 和 CIFAR -100。

这两个数据集里的图片,与 MNIST 数据集比较而言,有以下几个优点:

  • 都是真实图片而不是手稿等;
  • 图中只有一个主体目标;
  • 可以有部分遮挡,但是必须可辨识,这可以成为以后整理数据集的参考。

12 万张真实图像,类别丰富

CIFAR-10 数据集

CIFAR-10 数据集共包含 60000 张大小为 32x32 的彩色图像,分为 10 个类别,每个类别 6000 个图像。

Hinton 十年前整理的数据集,为什么现在仍是经典?

CIFAR-10 数据集示例图片

该数据集包含的 10 个类别分别是:airplane(飞机)、automobile(汽车)、bird(鸟)、cat(猫)、deer(鹿)、dog(狗)、frog(青蛙)、horse(马)、ship(船)和 truck(卡车)。

其中,airplane、automobile、ship 和 truck 类都是交通工具类图像,bird、cat、deer、dog、frog 和 horse 都是动物类图,可以认为是两类完全不同的物种,这些都是从语义上完全可以区分的对象。这些类完全相互排斥。

而且,汽车和卡车两种类别之间没有重叠。「汽车」包括轿车,SUV,但不包括卡车或皮卡。「卡车」只包括大卡车,皮卡仍不包括在内。

因此 CIFAR-10 的分类任务可以看作是一个跨物种语义级别的图像分类问题,类间方差大、类内方差小。

此外,我们也可以看出,CIFAR-10 有点类似于类别多样性得到了扩充的 MNIST 的彩色增强版,图像大小差不多,数据集大小也一样,类别也相等。

CIFAR-100 数据集

CIFAR-100 数据集与 CIFAR-10 类似,也包含 60000 张大小 32x32 的彩色图像。

不同之处是,它分为 20 个大类(superclass)、100 个子类。每一子类包含 600 张图像,分为 500 张训练图像和 100 张测试图像。

大类之间没有重叠容易区分,但是小类之间会有一定的相似性。

例如,「爬行动物」的大类又被分为「蜥蜴」、「蛇」、「乌龟」、「恐龙」和「鳄鱼」这么五个类别。因此每个图像带有 1 个小类的 fine 标签(精细标签)和 1 个大类的 coarse 标签(粗糙标签),对分类模型会提出比 CIFAR-10 更高的挑战。

以上两个数据集的具体信息如下:

包含数量:

CIFAR-10:6 万张图像

CIFAR-100:6 万张图像

数据大小:

CIFAR-10: 163 MB

CIFAR-100:161 MB

发布时间:

2009 年

包含内容:

图像数据,分类标签

下载地址:

CIFAR -10:

https://hyper.ai/datasets/4926

CIFAR-100:

https://hyper.ai/datasets/4929

所以,还等什么呢,快来下载训练你的模型吧!

数据集直达传送门—>点击文末 阅读原文 。

参考资料:

http://www.cs.toronto.edu/~kriz/cifar.html

http://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

—— 完 ——

Hinton 十年前整理的数据集,为什么现在仍是经典?

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容(点击图片阅读)

Hinton 十年前整理的数据集,为什么现在仍是经典?

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号