高速公路网络Highway Network翻译
高速公路网络HighwayNetwork翻译
摘要
有大量的理论和经验证据表明,神经网络的深度是其成功的关键因素。然而,随着深度的增加,网络训练变得更加困难,深度网络的训练仍然是一个悬而未决的问题。 在这个扩展的摘要中,我们介绍了一种旨在缓解非常深度网络的基于梯度的训练的新架构。 我们将具有此架构的网络称为高速公路网络,因为它们允许信息高速公路上的信息流在不同层之间畅通。 该体系结构的特点是使用门控单元学习通过网络来调节信息流。 可以使用随机梯度下降法和各种**函数直接训练很多层高速公路网络,从而为研究极其深入和高效的架构开辟了可能性。
1、介绍
通过应用深度神经网络,监督机器学习最近取得了许多经验突破。网络深度(指连续计算层数)在这些成功中扮演了最重要的角色。 例如,拥有1000个类别的ImageNet图像数据集的top-5分类精度已经从~84%增加到〜95%在短短几年内就使用更深层次的体系结构和更小的接受领域。
在理论方面,众所周知的是,深网络可以比浅层更有效地表示某些函数类。正如Bengio等人所主张的那样,使用深度网络可以为复杂任务提供计算和统计效率。
但是,训练更深层次的网络并不像简单地添加图层那样简单。已经证明深度网络的优化比较困难,导致对以下三个方面的研究:初始化方案;多个阶段的网络训练技术;暂时伴随损失函数附加在某些层。
在这个扩展的摘要中,我们提出了一种新颖的架构,可以实现几乎任意深度的网络优化。这是通过使用学习门控机制来调节信息流,这是受长期短期记忆循环神经网络启发的。 由于这种门控机制,神经网络可以具有信息沿着其可以流过几个层而没有衰减的路径。 我们称这些路径信息高速公路,以及这样的网络高速公路网络。
在初步实验中,我们发现高达900层的高速公路网络可以使用带有动量的简单随机梯度下降(SGD)进行优化。 对于多达100层,我们将他们的训练行为与具有规范化初始化的传统网络进行比较。我们表明,高速公路网络的优化实际上与深度无关,而对于传统网络,随着层数的增加,它显然会遭受损失。 我们还展示了与Romero等最近提出的架构相当的架构,可以直接进行训练,以获得类似的CIFAR-10数据集的测试集精度,而无需预先训练的导师网络。
1.1符号
我们用粗体字母表示向量和矩阵,斜体大写字母表示转换函数。0和1分别表示0和1的向量,I表示单位矩阵。σ(x)表示Sigmoid**函数。
2、Highway Network
一个简单的前馈神经网络通常由L层组成,其中第l层(l∈{1,2,...,L})在其输入x1上应用非线性变换H(由WH,l参数化)以产生其输出 yl。 因此,x1是网络的输入,yl是网络的输出。 为了清晰起见省略层索引和偏差,
H通常是一个仿射变换,后跟一个非线性**函数,但通常它可能采用其他形式。
对于公路网络,我们另外定义了两个非线性变换T(x,W T)和C(x,W C)
我们将T表示为变换门,C表示进位门,因为它们分别表示通过变换输入并携带输入产生多少输出。为了简单起见,在本文中我们设定C = 1-T,给出
为保证有效性公式(3)的x,y,H(x,W H)和T(x,W T)的维度必须相同。注意这种层转换的重新参数化比方程(1)更加灵活。 特别要注意的是
类似地,对于层变换的雅可比行列式,
因此,依赖于变换门的输出,公路层可以平滑地改变它在平坦层和简单地通过其输入的层之间的行为。正如一个普通层由多个计算单元组成,例如第i个单元计算yi = H i(x),一个高速公路网络由多个块组成,这样第i个块计算块状态H i(x)和变换门输出T i(x)。最后,它产生连接到下一层的块输出。
2.1构造高速网络
如前所述,等式(3)要求x,y,H(x,WH)和T(x,WT)的维度相同。在希望改变图像(或表示)的大小的情况下,一种方式是将x替换为通过适当的二次采样或零填充x获得的x。 另一种选择是使用平面图层(无高速公路)来改变维度,然后继续堆叠高速公路层。这是我们在这项研究中使用的替代方案。
卷积公路层的结构类似于完全连接的层。 H和T变换都使用权重共享和本地接受域。 我们使用零填充来确保块状态和变换门特征映射的大小与输入相同。
2.2 训练深度高速网络
对于普通深度网络,除非使用特定的权重初始化方案,否则最初会保留SGD延迟的训练,以便在最初保留前向和后向传播期间的信号方差。这种初始化取决于H的确切功能形式。
对于公路层,我们使用定义为T(x)=σ(W T T x + b T)的变换门,其中W T是权重矩阵,b T是变换门的偏差矢量。这表明一个简单的初始化方案,它依赖于H的性质:b T可以用负值(例如-1,-3等)初始化,使得网络最初偏向于进位行为。这一计划受到了Gers等人长期短时记忆循环网络中对门进行初始偏置,以期在学习早期帮助建立长期的时间依赖关系的建议的强烈启发。在注意σ(x)∈(0,1),∀x∈R,所以方程(4)中的条件永远不可能是完全正确的。
在我们的实验中,我们发现负偏置初始化对于学习在非常深的网络中进行WH的各种零均值初始分布和H使用的不同**函数是足够的。这是重要的性质,因为通常它可能 为H的许多选择找到有效的初始化方案是不可能的。
3、实验
3.1优化
即使使用方差保持初始化方案形式,非常深的普通网络也很难优化(He et al。,2015)。 为了表明高速公路网络在训练时不会遭受非常深度的影响,在MNIST数字分类数据集上运行一系列实验。我们测量训练集上的交叉熵误差,以调查优化,而不会将它们与泛化问题混为一谈。
我们训练具有相同架构和不同深度的普通网络和高速公路网络。第一层始终是一个常规的完全连接层,接着是9,19,49或99个完全连接的平面或高速公路层以及一个softmax输出层。 每层的单元数量保持不变,高速公路为50,普通网络为71。 这样两个参数的数量大致相同。为了比较公平,我们对普通网络和高速公路网络进行40次随机搜索,以找到超参数的良好设置。我们优化了初始的学习速率,动量,学习速率衰减速率,**函数H(ReLU或tanh)以及公路网络中变换门偏差(-1和-10之间)的值。 (He et al。,2015)引入的方案初始化所有其他权重。
图1中可以看到每个深度网络性能最好的收敛图。而对于10层普通网络来说,它表现出非常好的性能,随着深度的增加,它们的性能显着下降。另一方面,高速公路网络似乎完全不受深度增加的影响。 100层高速公路网的最终结果比10层高一个数量级,并且与10层普通网络相当。 事实上,我们开始在CIFAR-100上训练类似的900层高速公路网络,到目前为止只有80个时期,但迄今为止没有显示优化困难的迹象。同样值得指出的是,高速公路网络总是比普通网络收敛速度快得多。
3.2 与FitNet的比较
深层高速公路网络很容易优化,但它们对监督式学习是否有利,因为我们对测试集的泛化性能感兴趣?为了解决这个问题,我们将公路网络与Romero等人最近提出的称为Fitnet的薄而深的架构进行了比较。在cifar-10集增广随机翻译。结果摘要见表1。
Romero等人的报告中只有当参数数量限制在〜250K,乘法次数达到~30M时,对于深度达5层的最大网络才可以使用简单反向语言进行训练。只有通过使用两阶段训练程序和增加由预先训练的浅层教师网络(基于提示的训练)产生的软目标,才能培训深层网络。同样,只能使用基于提示的训练来训练具有2.5M参数预算的19层网络。
我们发现,使用反向传播直接对fitnets进行匹配的参数和操作数量可以很容易地训练公路网络。如表1所示,基于Fitnet 1和Fitnet 4架构的Highway 1和Highway 4分别在测试集上获得了相似或更高的精度。 我们还能够训练更细更深的网络:一个具有〜140M参数的19层高速公路网络和一个具有〜125M参数的32层高速公路网络,其性能类似于Romero等人的教师网络。(2014)。
4、分析
在图2中,我们展示了在MNIST(顶行)和CIFAR-100(底行)上训练的最佳150隐层全连接公路网络的内部工作情况。前三列显示,对于每个变换门,偏差,10K随机样本的平均活动性和单个随机样本的活动性。同一单个样品的块输出显示在最后一列中。
两个网络的变换门偏置分别初始化为-2和-4。有趣的是,与我们的预期相反,大多数偏差在训练期间实际上进一步减少。对于CIFAR-100网络,偏差随深度增加而形成梯度。奇怪的是,这个梯度与第二列中看到的转换门的平均活动呈负相关。这表明低深度的强负偏差不会用来关闭大门,而是使它们更具选择性。这一行为也是由于单个示例(列3)的转换门活动非常稀疏的事实而提出的。对于CIFAR-100网络,这种影响更为明显,但在MNIST网络中也可以观察到较小程度的影响。
图1。不同深度公路网络与普通网络的优化比较。所有的网络使用SGD动量优化。所示的曲线是最好的超参数设置使用随机搜索每个配置。随着深度的增加,普通网络变得更加困难,而多达100层的公路网仍然可以很好地优化。
表1.具有整流线性**和sigmoid门控的卷积公路网络的CIFAR-10测试集精度。为了比较,Romero等报道了结果。 (2014)使用maxout网络也显示。 Fitnet使用两步训练程序进行训练,训练使用来自训练有素的教师网络的软目标,该网络使用反向传播进行训练。 我们使用反向传播直接训练所有高速公路网络。 *表示仅在训练集中的50K个例子中的40K个集合上训练的网络。
图2的最后一列显示了块输出并清晰地显示了“信息高速公路”的概念。 大多数输出在许多层上保持不变,形成条纹图案。 输出的大部分变化发生在早期层(MNIST≈10,CIFAR-100≈30)。我们推测这种差异是由于CIFAR-100数据集更高的复杂性。
图2.在MNIST(顶行)和CIFAR-100(底行)上训练的最佳50层隐藏层高速公路网络中块的某些内部结构的可视化。 第一个隐藏层是一个平面图层,将图像的维度变为50. 49个高速公路图层(y轴)中的每一个图层都由50个图块(x轴)组成。 第一列显示变换门偏置,它们分别初始化为-2和-4。 在第二列中,描绘了超过10,000个训练示例的变换门的平均输出。 第三和第四列显示了单个随机训练样本的变换门输出和块输出。
总之,高速公路网络实际上利用门控机制通过多层几乎不变地传递信息。这种机制不仅可以作为简化培训的手段,还可以用于在训练有素的网络中发送信息。 我们观察到转换门的选择性很强,对当前输入模式的反应强烈不同。
5、总结
学习通过神经网络来传递信息有助于通过改善信用分配和简化培训来扩大他们的应用范围以应对挑战性问题。即便如此,训练非常深的网络仍然很困难,尤其是没有显着增加整个网络的规模。
公路网络是一种新型的神经网络架构,可以使用简单的SGD来训练极深的网络。虽然传统的简单神经网络架构越来越难以随着网络深度的增加进行训练(即使使用方差保持初始化),但我们的实验表明,即使网络深度增加到一百层,公路网络的优化也不会受到阻碍。
训练非常深的网络的能力,有助于研究深度对复杂问题的影响,而不受限制。各种**函数可能更适合于特定问题,但对于鲁棒初始化方案不可用,可以用于深高速公路网络中。今后的工作还将努力提高对公路网学习的认识。