Inception系列
分类:
文章
•
2024-09-26 21:23:40
1. Inception v1
- 创新点:出现了多支路,引入了
1
×
1
1\times 1
1×1卷积帮助减少网络计算量
- 目标:提升网络性能最直接的方法是增加网络的深度和宽度(通道数),但这样容易发生过拟合并增大计算量。有文献指出:如果数据集的概率分布能够被大型且非常稀疏的DNN网络所描述的话,那么通过分析前面层的**值的相关统计特性和将输出高度相关的神经元进行聚类,便可逐层构建出最优的网络拓扑结构。说明臃肿的网络可以被不失性能地简化。但是,现在的计算框架对非均匀的稀疏数据进行计算是非常低效的,主要是因为查找和缓存的开销。作者提出了一个想法,将稀疏矩阵聚类成相对密集的子矩阵,既能保持滤波器级别的稀疏特性,又能提高计算性能。根据此想法,提出了Inception结构。
- 结论:Inception v1通过精心的手工设计,在增加网络深度和宽度的同时保持计算量不变
- 论文:Going Deeper with Convolutions

2. Inception v2
- 创新点:引入BN层,将
5
×
5
5\times 5
5×5卷积用两个
3
×
3
3\times 3
3×3卷积代替
- 目标:训练DNN网络的一个难点是,在训练时每层输入数据的分布会发生改变,所以需要较低的学习率和精心设置初始化参数。只要网络的前面几层发生微小的改变,那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变,那么这一层网络就需要去适应学习这个新的数据分布,所以如果训练过程中,训练数据的分布一直在发生变化,那么将会影响网络的训练速度。作者把网络中间层在训练过程中,数据分布的改变称之为:“Internal Covariate Shift”。因此,作者提出对数据做归一化的想法。
- 结论:对数据进行了BN算法后,具有以下的优点:① 可以设置较大的初始学习率,并且减少对参数初始化的依赖,提高了训练速度;② 这是个正则化模型,因此可以去除dropout和降低L2正则约束参数;③ 不需要局部响应归一化层;④ 能防止网络陷入饱和,即消除梯度弥散。
- 论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
3. Inception v3
4. Inception v4
5. Xception
- 创新点:利用化繁为简的思想,将Inception v3结构全部改为
1
×
1
1\times 1
1×1和
3
×
3
3\times 3
3×3卷积,并用深度可分离卷积的思想继续减少计算量
- 目标:Inception的目标是针对分类任务追求最高的精度,v3和v4模型过于精细,难以进行迁移。Xception的目标是设计出易迁移、计算量小、精度较高的模型。
- 结论:根据Xception论文的实验结果,Xception在精度上略低于Inception v3,但在计算量和迁移性上都好于Inception v3。
- 论文:Xception: Deep Learning with Depthwise Separable Convolutions
