Softmax, stable softmax, softmax loss, cross entropy loss

1.softmax 公式:

Softmax, stable softmax, softmax loss, cross entropy loss

python:

def softmax(X):

    exps = np.exp(X) 

    return exps / np.sum(exps)

对于softmax理解,就是一种平滑的归一化。假如我们使用线性的归一化,就很均匀,softmax相当于给比较大的数值大的权重,比如python里面:

plt.plot(range(1, 20), np.exp(range(1, 20)))

Softmax, stable softmax, softmax loss, cross entropy loss

 

np.exp(20) = 485165195.40979028

越大的数占的得权重就越大。

 

这样造成一个问题,如果某个数比较大,可以参考https://blog.****.net/qq_39575835/article/details/88239982

最大也就 1.7x10^308这么大,所以为了避免溢出,stable softmax 就出来了

 

 

2.stable softmax

Softmax, stable softmax, softmax loss, cross entropy loss

分子分母同乘一个数,比值不变。一般而言C= max(sample)

 

python 代码就是

def stable_softmax(X): 

    exps = np.exp(X - np.max(X)) 

    return exps / np.sum(exps)

化简步骤如下:

Softmax, stable softmax, softmax loss, cross entropy loss

我在图中标注的M 是一个常数,大家一般都用 - max(x)来约束。所以stable softmax两行代码就撸完了。

 

3.softmax loss

 

Softmax, stable softmax, softmax loss, cross entropy loss

这个sj就是上面说的pi

      来举个例子吧。假设一个5分类问题,然后一个样本I的标签y=[0,0,0,1,0],也就是说样本I的真实标签是4,假设模型预测的结果概率(softmax的输出)p=[0.1,0.15,0.05,0.6,0.1],可以看出这个预测是对的,那么对应的损失L=-log(0.6),也就是当这个样本经过这样的网络参数产生这样的预测p时,它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15],这个预测结果就很离谱了,因为真实标签是4,而你觉得这个样本是4的概率只有0.1(远不如其他概率高,如果是在测试阶段,那么模型就会预测该样本属于类别3),对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1],这个预测结果虽然也错了,但是没有前面那个那么离谱,对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数,而且log函数是递增函数,所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大,预测错得离谱比预测错得轻微的损失要大。

    再翻译一下这个公式就是label x log(正确分类的概率),再取负数(因为前面的算出是负的)

 

4.cross entropy loss

其实没啥区别

Softmax, stable softmax, softmax loss, cross entropy loss

softmax loss 中的sj什么大小都可以,cross entropy 中pj加起来要等于1。(个人理解)

 

 

reference:
https://deepnotes.io/softmax-crossentropy

https://blog.****.net/u014380165/article/details/77284921