Softmax与交叉熵

Softmax函数如下：

P_{k} = \frac{e^{θ_{k} x}}{\sum_{j = 0}^{d} e^{θ_{j} x}}

其中，Pk对应输出层第k个神经元的输出，也就是预测为第k类的概率,d表示输出层神经元总数
其损失函数(交叉熵)如下：

J (θ) = - \frac{1}{n} \sum_{i = 0}^{n} \sum_{j = 0}^{d} I (l a b e l (i) == k) l n P_{i}

其中，label(i)表示第i个样本的标签为第几类，I(label(i)==k)判断第i个样本的标签是否为k，若是值为1否则值为0

Softmax对反向传播推导

Softmax反向传播求导主要使用链式求导法则，因此我们只需要从输出层开始逐层倒推即可。
博主为了简便期间，先只讨论一般的神经网络情况（只存在全连接层，无卷积，池化层）

对前一层神经元输出的求导

在这里我们将Softmax层展开，如果前一层的输出（卷积神经网络中通常是全连接层）是X,那么记θX=Y，

P_{k} = \frac{e^{y_{k}}}{\sum_{j = 0}^{d} e^{y_{j}}}

根据链式求导法则，要求出Loss对y的偏导那就可以继续求Loss对x的偏导。

卷积神经网络（二）：Softmax损失以及反向传播导数推导

Loss对y的偏导分为两种情况，1:对于第i个样本的第label(i)个y的偏导

卷积神经网络（二）：Softmax损失以及反向传播导数推导

2.对非标签对应项的y的偏导，如果记为b

卷积神经网络（二）：Softmax损失以及反向传播导数推导

总的来说可以归纳为：

\frac{Δ J_{θ}}{Δ y_{k}} = - \sum_{i = 0}^{n} \frac{1}{n} [I (l a b e l (i) == k) - P_{k, i}]

因此

\frac{Δ J_{θ}}{Δ x_{m}} = - \sum_{j = 0}^{d} \sum_{i = 0}^{n} \frac{Δ J_{θ}}{Δ y_{k}} \frac{Δ y_{k}}{Δ x_{m}} = - \sum_{j = 0}^{d} {\sum_{i = 0}^{n} \frac{1}{n} [I (l a b e l (i) == j) - P_{j, i}] * θ_{m, j}}

对更前的层的输出的求导

核心原理：
同样使用链式法则倒推，假设要求得某一层某个神经元z的导数则：

\frac{Δ J_{θ}}{Δ z} = - \sum_{j = 0}^{D} \sum_{i = 0}^{n} \frac{Δ J_{θ}}{Δ x_{j}} \frac{Δ x_{j}}{Δ z}

其中，我们假设了

x_{0}

到

x_{D}

都是z神经元在前向传播过程中参与计算了的（也就是说倘若把x的表达式用z对应的层的神经元展开，则

x_{0}

到

x_{D}

是全部z参与运算得到的x，毕竟只有z参与运算才有x对z的导数）
公式表述：
为了能够简洁的表示损失对某一神经元或者权重的求导，一般记敏感度 $δ_{j}^{l}$ 为损失J对第l层的某个神经元j**前的输出的偏导
可以写成如下公式：
卷积神经网络（二）：Softmax损失以及反向传播导数推导

其中

W_{i j}^{l}

表示第l层第i个神经元连接第l+1层第j个神经元的权值，

X_{i}^{l}

表示第l层的第i个输入，

S_{j}^{l}

表示第l层的第i个输出，f(x)表示**函数
敏感度通过(2)式方向传播，而对权值的偏导数可以如(1)式通过敏感度求得
（以上(1),(2)两个公式都是只考虑一个样本的情况，否则还要加一个求和）

对于卷积神经网络

对于卷积神经网络的求导原理与上述情况一样，由于有卷积和池化层的存在，下一层会存在大量的与上一层无关的神经元，因此敏感度反向传播方式类似于反卷积的过程，由于原理已经掌握，而且在实践中都是由深度学习框架实现，在此就不再详述，感兴趣的可以自己查找其他博客。

卷积神经网络（二）：Softmax损失以及反向传播导数推导

Softmax与交叉熵

Softmax对反向传播推导

对前一层神经元输出的求导

对更前的层的输出的求导

对于卷积神经网络

相关推荐