On the Number of Linear Regions of Deep Neural Networks

文献来源:Montufar G F, Pascanu R, Cho K, et al. On the number of linear regions of deep neural networks[C]//Advances in neural information processing systems. 2014: 2924-2932.

https://papers.nips.cc/paper/5422-on-the-number-of-linear-regions-of-deep-neural-networks.pdf


思想

文章的主要思想是深层神经网络较浅层神经网络能够将输入空间折叠得更多(指数级差别),也就是能够通过叠加多层的修正函数神经元可以得到更多的灵活性(在下图中,较深的神经单元因为有更多零碎的“线性子空间”,从而对于最优决策边界能够更好地拟合).同时对于典型的深度前向神经网络能够切分得到的linear region的数量给出了上下界.

On the Number of Linear Regions of Deep Neural Networks

Pascanu et al.(2013)理论分析了关于带有修正神经元的深度前向神经网络中函数的复杂度,确定了深度神经网络比浅层神经网络能够将输入空间进行更多(指数级)的折叠(使用相同数量的神经元).这篇文章就是在这个基础上继续深挖.

分析

关键:深度模型的每一层能够映射不同区域的输入到同一个输出中(折叠).

文章中讨论的是普通的深层前向神经网络,其中**函数主要是

  • 修正单元(Rectifier unit)

gi(fi)=max{0,fi}

  • 最大输出单元(Maxout unit)

gi(fi)=max{fi,1,...,fi,k}

上面提到的两种**函数的非线性特性可以被看作是超平面提供,然后多个超平面进行叠加就形成了a hyperplane arrangement,超平面的叠加就将输入平面分割层了多个区域.以数学语言描述就是,一个由超平面叠加得到的区域是补集Rn0(iHi)的连通子集,其中Hi表示各个超平面,n0表示输入数据维数.在n1个超平面(隐含神经元)在Rn0的叠加可以最多得到j=0n0(n1j)个区域.(数学证明可以查看Pascanu et al.(2013))

数据点的特性
文章的重心,通过相同的非线性函数叠加,对输入空间分割折叠这一操作在下图可以清晰看出,不同的数据点可以递归合并到最终超平面的同一点.

On the Number of Linear Regions of Deep Neural Networks

数据边界的特性
更进一步地,数据的特性,通过潜在的边界超平面对称性学习能够十分轻松地得到数据的分类模型(见下图),通过不断地地折叠超平面,可以将原本较为复杂的边界描述简单化.

On the Number of Linear Regions of Deep Neural Networks

更进一步地,文章的第三节和第四节对于修正神经元的网络和最大输出神经元的网络分别进行分析,给出了在一定条件下的线性区域个数边界.

相关文献

Pascanu R, Montufar G, Bengio Y. On the number of response regions of deep feed forward networks with piece-wise linear activations[J]. arXiv preprint arXiv:1312.6098, 2013.


On the Number of Linear Regions of Deep Neural Networks
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。