Alex论文笔记
ImageNet Classification with Deep Convolutional Neural Networks-基于深度卷积神经网络的图像分类
论文原文:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
文章目录
1.论文总览
- 摘要
介绍背景及提出Alex模型获得ILSVRC-2012冠军; - The Dataset
ILSVRC数据集简介,图片预处理细节; - The Architecture
Alex网络结构及其内部细节Relu,GPU,LRN,Overlapping pooling - Reducing Overfitting
防止过拟合技术,数据增强和Dropout; - Detail of learning
实验参数设置,超参数调整,权重初始化; - Result
Alex比赛指标、成绩以及详细设置; - Qualitative Evalutions
实验探究,分析卷积核模式,模型输出合理性,高级特征的相似性; - Discussion
强调网络结构之间的强关联性,提出进一步研究方向;
2.摘要
(1)该网络(AlexNet)由5个卷积层和3个全连接层构成,共计6000万参数,65个神经元;
(2)为了加快训练,采用非饱和**函数-Relu,采用GPU训练
(3)为减轻过拟合,采用Dropout;
3.论文结构
(1)ReLU Nonlinearity --Relu非线性单元
**函数:
正切函数:f(x) = tanh(x)
Sigmoid函数:f(x) = (1 + e−x)−1
Relu函数:f(x) = max(0, x)
Relu的优点:
- 使网络的训练更快;
- 防止梯度消失;
- 使网络具有稀疏性;
(2)Training on Multiple GPUs–在双GPU上训练
将网络分散到两个并行的GPU上,它们可以直接读写批次的内存,而不需要通过主机内存。并行方案的本质是将一半的神经元放在每个GPU上。另外,GPU只能在特定的层上通信。
(3) Local Response Normalization–局部相应标准化
局部响应标准化有助于AlexNet泛化能力的提升,受真实神经元侧抑制启发;
侧抑制是指,细胞分化变为不同时,它会对周围细胞产生抑制信号,阻止它们向相同的方向分化,最终表现为细胞命运的不同。
(4)Overlapping Pooling–带重叠的池化
一个池化层可以被认为是由一个间隔s像素的池化单元网格组成,每个池化单元汇总一个大小为z×z的以池化单元位置为中心的邻域。设s = z,得到CNNs中常用的传统局部池。如果我们设置s < z,我们得到重叠池。这是我们在整个网络中使用的,s = 2和z = 3。
(5)Overall Architecture–网络整体结构
该网络包含8个带有权重的层;前5个是卷积的,其余3个是完全连通的。最后的全连接层的输出被馈给一个1000路softmax,它产生超过1000类标签的分布。
第二、四、五卷积层的内核只与上一层位于同一GPU上的内核映射相连(见图1)。第三卷积层的内核与第二层的所有内核映射相连。全连接层中的神经元与前一层的所有神经元连接。第二卷积层以第一卷积层的输出(响应归一化合并)作为输入,用256个大小为5×5×48的核对其进行过滤。第三、第四和第五卷积层相互连接,中间没有任何池或规范化层。第三卷积层有384个大小为3×3×256的核,连接到第二层卷积层的输出(归一化,池化)。第4卷积层有384个核,大小为3×3×192,第5卷积层有256个核,大小为3×3×192。全连接层每层有4096个神经元。
图1中明确两个GPU之间职责的划分。一个GPU运行图形顶部的分层部分,而另一个运行图形底部的分层部分。GPU只在某些层上通信。
4.训练技巧
(1)Data Augmentation–数据增强
方法一:针对位置
训练阶段:
1.图片统一缩放至256256
2.随机位置剪裁出224224区域
3.随机进行水平翻转
测试阶段:
1.图片统一缩放至256256
2.剪裁出5个224224区域
3.均进行水平翻转,共得到10张224*224图片
方法二:针对颜色
通过PCA方法修改RGB通道的像素值,但是实现颜色扰动效果有限,仅在top-1提升1个百分点。
(2)Dropout
Dropout,它包括以0.5的概率将每个隐藏神经元的输出设置为0。以这种方式“退出”的神经元不参与正向传递,也不参与反向传播。所以每次输入被提出时,神经网络采样不同的架构,但所有这些架构共享权重。
在测试时,我们使用了所有的神经元,但将它们的输出乘以0.5,这是一个合理的近似值,近似于取指数多丢失网络产生的预测分布的几何平均值。
5.训练细节
我们使用随机梯度下降来训练我们的模型,批量大小为128个例子,动量为0.9,重量衰减为0.0005。我们发现,这一小部分的重量衰减对模型的学习很重要。换句话说,这里的权值衰减不仅仅是一个调节器:它减少了模型的训练误差。
我们从一个标准偏差为0.01的零均值高斯分布初始化每一层的权重。我们用常数1初始化了第二、第四和第五卷积层以及完全连接的隐藏层中的神经元偏差。这种初始化通过向ReLUs提供积极的输入来加速学习的早期阶段。我们用常数0初始化剩余层中的神经元偏差。我们对所有层使用了相同的学习率,在整个训练过程中我们手动调整。
我们通过120万张图像的训练集对网络进行了大约90个周期的训练,在两个NVIDIA GTX 580 3GB GPU上花费了5到6天的时间。
6.实验结果及分析
1.定性分析Qualitative Evaluations
2.卷积可视化
卷积核呈现出不同的频率、方向和颜色;
两个GPU还呈现分工学习;
3.特征的相似性
相似图片的第二个全连接层输出特征向量的欧氏距离相近;
4.启发:可用AlexNet提取高级特征进行图像检索、图像聚类及图像编码;
7.论文总结
- 关键点
1.大量带标签的数据–ImagNet
2.高性能计算资源–GPU
3.合理算法模型–深度卷积神经网络 - 创新点
1.采用Relu加快大型神经网络训练速度
2.采用LRN提升大型网络泛化能力
3.采用Overlopping Pooling提升指标
4.采用随机剪裁翻转及色彩扰动增强数据多样性
5.采用Dropout减轻过拟合 - 启发点
1.深度与宽度可决定网络的能力(1 introduction p2)
2.更强大的GPU及更多的数据可进一步提升模型性能(1 introduction p5)
3.图片缩放细节,对短边先缩放(2.Dataset P3)
4.Relu不需要对输入进行标准化来防止饱和现象,即说明sigmoid/tanh**函数有必要对输入进行标准化(3.3 LRN p1)
5.卷积核学习到频率、方向和颜色特征(6.1,p1)
6.相似图片具有相近的高级特征(6.1,p3)
7.图像检索可基于高级特征,效果应该优于基于原始图像
8.网络结构具有相关性,不可轻易移除某一层
9.采用视频数据,可有新突破。