原本以为softmax函数求导没啥难度的，结果自己写CNN的时候，梯度算的一直不对，查了半天才发现是因为softmax求导没求对。索性就开一篇Blog把softmax相关的都给记录一下。

softmax的定义

softmax函数如下：

a L j = e z L j \sum k e z L k

其可以看成sigmoid函数在多元分布中的一个推广
至于softmax这个公式具体是怎么来的呢？
可以参照广义线性模型（GLM）里，通过多项分布化成为指数分布簇的形式，就得到了softmax
相当于softmax是对于多项分布的一个刻画。
所以softmax函数所表示的可以看成为对分类结果的概率分布。

softmax和cross-entropy损失函数

正如上面所说，softmax可以看成对概率分布的一个刻画，所以既然有概率分布，就可以用cross-entropy来定义损失函数
之前的一篇Blog里讲过cross-entropy，从两个角度来考虑，一个是相当于用预测结果的分布区编码正确的结果分布，得到的编码长度，另一个角度可以看成，度量两个分布的KL距离，将其展开去掉常数项，也能得到cross-entropy
所以损失函数可以度量成：

L = - \sum j y j ln a L j

softmax的求导

softmax本身的求导如下：
当j≠i时，我们只用对分母求偏导就好

\partial a L j \partial z L i = - e z L j (\sum k e z L k) 2 \cdot e z L i = - a L i \cdot a L j

当j=i时：

\partial a L j \partial z L j = e z L j \cdot (\sum k e z L k) - (e z L j) 2 (\sum k e z L k) 2 = a L j \cdot (1 - a L j)

我之前之所以算错了softmax的导数，就是因为我以为j≠i时分子不含i，所以导数就为0了呢，实际上，是分母中都是含有的。
当softmax与cross-entropy结合的时候，可以求得输出层的误差为：

\partial E \partial z L j = \sum k \partial E \partial a L k \cdot \partial a L k \partial z L j = - y j (1 - a L j) + \sum k \neq j y k a L k \cdot (a L k \cdot a L j)

= a L j (\sum k y k) - y j = a L j - y j

所以得到了最后一层的误差值：

δ L j = a L j - y j

softmax的好处

softmax函数的好处经常和cross-entropy的好处放在一块来说。
用cross-entropy相较于平方误差 square loss function的好处，是能够减少训练缓慢的问题【也可以说是梯度消失的问题】
因为平方损失函数求导得到的误差结果为【此处假设输出层每个结果用单一的sigmoid函数来表示】：
δLj=(aLj−yj)σ′(zLj)=(aLj−yj)aLj(1−aLj)
因为其需要乘以一个sigmoid的导数，因为sigmoid导数会有梯度消失的问题，所以当结果非常好或者非常差的时候，其训练速度都会非常的缓慢【也就是说的饱和的情况】。
画出图像的话为下图：
【机器学习】softmax函数总结
即在一开始，随机化初始权重之后，当时分类器肯定结果很差，但是此时导数非常的小，训练起来非常的缓慢。
而符合直觉的想法是，当结果越差的时候，我们希望梯度也能够越大才可以。而cross-entropy函数能够满足这个性质。
另外在LR回归之中，如果采用平方损失函数，则损失函数是非凸的，而采用cross-entropy则结果是凸的。

另外一个softmax的好处是，其中一个结果发生了变化，整个输出的所有结果都会发生变化，对变化更加敏感

【机器学习】softmax函数总结

softmax的定义

softmax和cross-entropy损失函数

softmax的求导

softmax的好处

相关推荐