深度学习剖根问底：各种Loss大总结

1. 指数损失函数（Adaboost）

学过Adaboost算法的人都知道，它是前向分步加法算法的特例，是一个加和模型，损失函数就是指数函数。在Adaboost中，经过m此迭代之后，可以得到fm(x):

深度学习剖根问底：各种Loss大总结

Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数α和G：

深度学习剖根问底：各种Loss大总结

而指数损失函数(exp-loss）的标准形式如下

深度学习剖根问底：各种Loss大总结

可以看出，Adaboost的目标式子就是指数损失，在给定n个样本的情况下，Adaboost的损失函数为：

深度学习剖根问底：各种Loss大总结

几种损失函数的可视化图像

深度学习剖根问底：各种Loss大总结

参数越多，模型越复杂，而越复杂的模型越容易过拟合。过拟合就是说模型在训练数据上的效果远远好于在测试集上的性能。此时可以考虑正则化，通过设置正则项前面的hyper parameter，来权衡损失函数和正则项，减小参数规模，达到模型简化的目的，从而使模型具有更好的泛化能力。

2. log对数损失函数（逻辑回归）

有些人可能觉得逻辑回归的损失函数就是平方损失，其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负的似然函数（即max F(y, f(x)) —-> min -F(y, f(x)))。从损失函数的视角来看，它就成了log损失函数了。

log损失函数的标准形式：

深度学习剖根问底：各种Loss大总结

刚刚说到，取对数是为了方便计算极大似然估计，因为在MLE中，直接求导比较困难，所以通常都是先取对数再求导找极值点。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为log函数是单调递增的，所以logP(Y|X)也会达到最大值，因此在前面加上负号之后，最大化P(Y|X)就等价于最小化L了。
逻辑回归的P(Y=y|x)表达式如下（为了将类别标签y统一为1和0，下面将表达式分开表示）：

深度学习剖根问底：各种Loss大总结

将它带入到上式，通过推导可以得到logistic的损失函数表达式，如下：

深度学习剖根问底：各种Loss大总结

逻辑回归最后得到的目标式子如下：

深度学习剖根问底：各种Loss大总结

上面是针对二分类而言的。这里需要解释一下：之所以有人认为逻辑回归是平方损失，是因为在使用梯度下降来求最优解的时候，它的迭代式子与平方损失求导后的式子非常相似，从而给人一种直观上的错觉。

3. 二分类交叉熵损失sigmoid_cross_entropy：

深度学习剖根问底：各种Loss大总结

4. 二分类平衡交叉熵损失balanced_sigmoid_cross_entropy：

该损失也是用于2分类的任务，相比于sigmoid_cross_entrop的优势在于引入了平衡参数，可以进行正负样本的平衡，得到比sigmoid_cross_entrop更好的效果。

深度学习剖根问底：各种Loss大总结

5. 多分类交叉熵损失softmax_cross_entropy：

深度学习剖根问底：各种Loss大总结

6. Focal loss：

focal loss为凯明大神的大作，主要用于解决多分类任务中样本不平衡的现象，可以获得比softmax_cross_entropy更好的分类效果。

深度学习剖根问底：各种Loss大总结

论文中α=0.25，γ=2效果最好。

深度学习剖根问底：各种Loss大总结

7. 合页损失hinge_loss：

也叫铰链损失，是svm中使用的损失函数。

由于合页损失优化到满足小于一定gap距离就会停止优化，而交叉熵损失却是一直在优化，所以，通常情况下，交叉熵损失效果优于合页损失。

深度学习剖根问底：各种Loss大总结

8. KL散度：

KL散度( Kullback–Leibler divergence)，也叫相对熵，是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。

深度学习剖根问底：各种Loss大总结