Softmax, stable softmax, softmax loss, cross entropy loss
1.softmax 公式:
python:
def softmax(X):
exps = np.exp(X)
return exps / np.sum(exps)
对于softmax理解,就是一种平滑的归一化。假如我们使用线性的归一化,就很均匀,softmax相当于给比较大的数值大的权重,比如python里面:
plt.plot(range(1, 20), np.exp(range(1, 20)))
np.exp(20) = 485165195.40979028
越大的数占的得权重就越大。
这样造成一个问题,如果某个数比较大,可以参考https://blog.****.net/qq_39575835/article/details/88239982
最大也就 1.7x10^308这么大,所以为了避免溢出,stable softmax 就出来了
2.stable softmax
分子分母同乘一个数,比值不变。一般而言C= max(sample)
python 代码就是
def stable_softmax(X):
exps = np.exp(X - np.max(X))
return exps / np.sum(exps)
化简步骤如下:
我在图中标注的M 是一个常数,大家一般都用 - max(x)来约束。所以stable softmax两行代码就撸完了。
3.softmax loss
这个sj就是上面说的pi
来举个例子吧。假设一个5分类问题,然后一个样本I的标签y=[0,0,0,1,0],也就是说样本I的真实标签是4,假设模型预测的结果概率(softmax的输出)p=[0.1,0.15,0.05,0.6,0.1],可以看出这个预测是对的,那么对应的损失L=-log(0.6),也就是当这个样本经过这样的网络参数产生这样的预测p时,它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15],这个预测结果就很离谱了,因为真实标签是4,而你觉得这个样本是4的概率只有0.1(远不如其他概率高,如果是在测试阶段,那么模型就会预测该样本属于类别3),对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1],这个预测结果虽然也错了,但是没有前面那个那么离谱,对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数,而且log函数是递增函数,所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大,预测错得离谱比预测错得轻微的损失要大。
再翻译一下这个公式就是label x log(正确分类的概率),再取负数(因为前面的算出是负的)
4.cross entropy loss
其实没啥区别
softmax loss 中的sj什么大小都可以,cross entropy 中pj加起来要等于1。(个人理解)
reference:
https://deepnotes.io/softmax-crossentropy
https://blog.****.net/u014380165/article/details/77284921