Opening the black box of deep nueron network via information

Opening the black box of deep nueron network via information

http://www.cnblogs.com/guoyaohua/p/8542554.html

https://blog.****.net/qq_20936739/article/details/82661148

Opening the black box of deep nueron network via information

信息平面(Information plane)在训练过程中的变化。左图训练了5%的样本,右图训练了95%的样本。

 

实验结果里那条粗的竖着的渐变色的曲线,是随着迭代进行,某一隐层T包含的关于X,Y的信息量的在信息平面上的轨迹。深紫色是开始迭代,颜色越黄表示迭代越多次。

实验结果里细线连的是一个神经网络中不同的隐层,右上角是第一个隐层,往左下依次是第二到五个隐层、输出层。第一个隐层自始至终在信息平面右上角,训练过程中,它的位置没怎么变,一直包含了很多关于X,Y的信息。而后面的隐层,包含的X,Y的信息逐渐减少,但是随着训练,在信息平面的位置发生了较大的改变。 这个改变分为两个阶段,按照作者说的,一个是“学习阶段”,第二个阶段是“压缩阶段”。一开始,隐层会学到关于输入输出的信息,所以在信息平面上朝着右上方移动。第二个阶段,隐层开始忘记关于输入的信息,包含的关于X的信息开始下降,朝左移动。

 

网络的复杂度和互信息之间的对应性,这个说法是点到 问题的本质了,深度网络就是信息分布模式的最优表示或者最优生成程序。互信息是两个分布之间的差异度,导致这种差异的是信号处理过程,即程序的复杂度,所以二者之间有本质的联系。

他给出的information plane的动态很容易理解,因为整个问题是用网络逼近一个目标函数,而这个目标函数是被训练数据所表达的。第一阶段是找到目标函数的过程,大致定位目标函数,第二阶段即所谓的信息压缩阶段,这是让网络结构优化,寻找实现目标函数的最优配置。简单说,第一步是找到目的地,第二部是找到达目的地的最优路径,这完全是网络结构的特征,不是SDG的特征。

CNN的结构本质上是一个group renormalization, 不停压缩局部信息保留全局信息。

我一开始也是把这种扰动看作成noise,准确来说是理想下最速下降方向和实际下降方向的偏差。

SGD不同于BGD,这是随机选取一部分的样本进行梯度计算,而BGD是将所有的样本用来进行梯度计算。

 

Opening the black box of deep nueron network via information

Information plane和x-y平面一样,也是一个平面,不过information plane的横纵坐标是互信息的大小。横轴是I(X;T),也就是输入和隐层T的互信息。 纵轴是I(Y;T),也就是输出(神经网的决策)和隐层的互信息。信息平面的位置体现了不同的隐层保留了多少关于XY的信息。

 

二、实验设计