Inception系列

创新点：出现了多支路，引入了 1 × 1 1\times 1 1×1卷积帮助减少网络计算量
目标：提升网络性能最直接的方法是增加网络的深度和宽度（通道数），但这样容易发生过拟合并增大计算量。有文献指出：如果数据集的概率分布能够被大型且非常稀疏的DNN网络所描述的话，那么通过分析前面层的**值的相关统计特性和将输出高度相关的神经元进行聚类，便可逐层构建出最优的网络拓扑结构。说明臃肿的网络可以被不失性能地简化。但是，现在的计算框架对非均匀的稀疏数据进行计算是非常低效的，主要是因为查找和缓存的开销。作者提出了一个想法，将稀疏矩阵聚类成相对密集的子矩阵，既能保持滤波器级别的稀疏特性，又能提高计算性能。根据此想法，提出了Inception结构。
结论：Inception v1通过精心的手工设计，在增加网络深度和宽度的同时保持计算量不变
论文：Going Deeper with Convolutions

Inception系列

创新点：引入BN层，将 5 × 5 5\times 5 5×5卷积用两个 3 × 3 3\times 3 3×3卷积代替
目标：训练DNN网络的一个难点是，在训练时每层输入数据的分布会发生改变，所以需要较低的学习率和精心设置初始化参数。只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度。作者把网络中间层在训练过程中，数据分布的改变称之为：“Internal Covariate Shift”。因此，作者提出对数据做归一化的想法。
结论：对数据进行了BN算法后，具有以下的优点：① 可以设置较大的初始学习率，并且减少对参数初始化的依赖，提高了训练速度；② 这是个正则化模型，因此可以去除dropout和降低L2正则约束参数；③ 不需要局部响应归一化层；④ 能防止网络陷入饱和，即消除梯度弥散。
论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

创新点：将 n × n n\times n n×n卷积分割为 1 × n 1\times n 1×n和 n × 1 n\times 1 n×1两个卷积（空间可分离卷积）
论文：Rethinking the Inception Architecture for Computer Vision

创新点：引入Resnet和shortcut思想
目标：当网络更深更宽时，inception网络能否一样高效。基于这个想法，将inception和resnet两者进行融合，进一步改善网络
论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

创新点：利用化繁为简的思想，将Inception v3结构全部改为 1 × 1 1\times 1 1×1和 3 × 3 3\times 3 3×3卷积，并用深度可分离卷积的思想继续减少计算量
目标：Inception的目标是针对分类任务追求最高的精度，v3和v4模型过于精细，难以进行迁移。Xception的目标是设计出易迁移、计算量小、精度较高的模型。
结论：根据Xception论文的实验结果，Xception在精度上略低于Inception v3，但在计算量和迁移性上都好于Inception v3。
论文：Xception: Deep Learning with Depthwise Separable Convolutions

Inception系列