1.softmax 公式：

Softmax， stable softmax, softmax loss， cross entropy loss

python：

def softmax(X):

    exps = np.exp(X) 

    return exps / np.sum(exps)

对于softmax理解，就是一种平滑的归一化。假如我们使用线性的归一化，就很均匀，softmax相当于给比较大的数值大的权重，比如python里面：

plt.plot(range(1, 20), np.exp(range(1, 20)))

Softmax， stable softmax, softmax loss， cross entropy loss

np.exp(20) = 485165195.40979028

越大的数占的得权重就越大。

这样造成一个问题，如果某个数比较大，可以参考https://blog.****.net/qq_39575835/article/details/88239982

最大也就 1.7x10^308这么大，所以为了避免溢出，stable softmax 就出来了

2.stable softmax

Softmax， stable softmax, softmax loss， cross entropy loss

分子分母同乘一个数，比值不变。一般而言C= max（sample）

python 代码就是

def stable_softmax(X): 

    exps = np.exp(X - np.max(X)) 

    return exps / np.sum(exps)

化简步骤如下：

Softmax， stable softmax, softmax loss， cross entropy loss

我在图中标注的M 是一个常数，大家一般都用 - max（x）来约束。所以stable softmax两行代码就撸完了。

3.softmax loss

Softmax， stable softmax, softmax loss， cross entropy loss

这个sj就是上面说的pi

来举个例子吧。假设一个5分类问题，然后一个样本I的标签y=[0,0,0,1,0]，也就是说样本I的真实标签是4，假设模型预测的结果概率（softmax的输出）p=[0.1,0.15,0.05,0.6,0.1]，可以看出这个预测是对的，那么对应的损失L=-log(0.6)，也就是当这个样本经过这样的网络参数产生这样的预测p时，它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15]，这个预测结果就很离谱了，因为真实标签是4，而你觉得这个样本是4的概率只有0.1（远不如其他概率高，如果是在测试阶段，那么模型就会预测该样本属于类别3），对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1]，这个预测结果虽然也错了，但是没有前面那个那么离谱，对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数，而且log函数是递增函数，所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大，预测错得离谱比预测错得轻微的损失要大。

再翻译一下这个公式就是label x log(正确分类的概率)，再取负数（因为前面的算出是负的）

4.cross entropy loss

其实没啥区别

Softmax， stable softmax, softmax loss， cross entropy loss

softmax loss 中的sj什么大小都可以，cross entropy 中pj加起来要等于1。（个人理解）

reference:
https://deepnotes.io/softmax-crossentropy

https://blog.****.net/u014380165/article/details/77284921

Softmax， stable softmax, softmax loss， cross entropy loss

1.softmax 公式：

2.stable softmax

3.softmax loss

4.cross entropy loss

相关推荐