机器学习之常见的损失函数(loss function)

解决一个机器学习问题主要有两部分：数据和算法。而算法又有三个部分组成：假设函数、损失函数、算法优化。我们一般在看算法书或者视频教学时，更多的是去推算或者说参数估计出其假设函数，而往往不太注重损失函数，但是损失函数在面试时却是一个很重要的知识点。所以仅在此以自己理解的方式总结一些常见的损失函数，作为笔记方便日后复习。

参考文章：

一、总览

在机器学习中，通常把模型关于单个样本预测值与真实值的差称为损失，损失越小，模型越好，而用于计算损失的函数称为损失函数。本文介绍的主要有以下的一些损失函数。

logLoss (对数损失函数，LR)
hinge loss (合页损失函数，SVM)
exp-loss (指数损失函数，AdaBoost)
cross-entropy loss (交叉熵损失函数，Softmax)
quadratic loss (平方误差损失函数，线性回归)
absolution loss (绝对值损失函数， )
0-1 loss (0-1损失函数)

机器学习之常见的损失函数(loss function)

二、 logLoss (对数损失函数，也叫binary cross entropy，二元交叉熵损失，LR)

逻辑回归模型中，通过把线性拟合分类边界的结果送入sigmoid函数，从而得到预测为正的概率。那么很多人可能认为logistics regression模型的损失函数为平方损失函数？其实不是，而是logLoss。为什么是logloss呢？在逻辑回归推导过程中，我们假设样本不是0就是1，即假设样本服从伯努利分布(0-1, 伯努利分布亦称“零一分布”、“两点分布”)，然后求满足分布的似然函数，转成对数似然，在对对数似然求极值等。而逻辑回归并没有求似然函数的极值，而是把极大化当成一种思想，对极大取负号变成取极小值。从损失函数的角度去看，其就变成了log损失函数。

logLoss (log 损失函数)的函数标准形式：

机器学习之常见的损失函数(loss function)

逻辑回归的P(Y=y|x)的表达式如下：

机器学习之常见的损失函数(loss function)

把P(Y=y|x)带入log loss得：

机器学习之常见的损失函数(loss function)

分段函数不太好求解，我们对其进行合并，则最后逻辑回归的目标式子为：

机器学习之常见的损失函数(loss function)

当然，一般我们在实际使用中会对目标函数加入正则化：

机器学习之常见的损失函数(loss function)

m为样本数，n为特征数。

上面就是逻辑回归使用log loss的推导过程了，得到该目标函数后就可通过梯度下降等优化方法进行求参咯，如果你还不了解逻辑回归，请点这里。

三、hinge loss (合页损失函数，SVM)

在机器学习中，SVM是你不可能绕过去的模型，SVM有两种解释方式:

第一种是我们非常熟悉的是通过间隔最大化方式，通过拉格朗日乘子法转化成对偶问题进行建模求解的，其(此处是说线性支持向量机)原始优化问题为：

机器学习之常见的损失函数(loss function)

通过拉格朗日乘子法转化并求解之后，得到的式子为：

机器学习之常见的损失函数(loss function)

第二种就是包含有hinge loss的解释方式，其通过最小化下面的目标函数：

机器学习之常见的损失函数(loss function)

而上面的式子中，第1项是经验损失或者经验风险第二项为系数为机器学习之常见的损失函数(loss function) 的w的L2范数，为正则化项，对于第1项经验损失，函数

机器学习之常见的损失函数(loss function)

称为合页损失函数(hinge loss function)。下标“+”表示下面取正值的函数：

机器学习之常见的损失函数(loss function)

也可以这样理解：

机器学习之常见的损失函数(loss function)

hinge loss function 表示，当样本点(x_i, y_i)被正确分类且函数间隔机器学习之常见的损失函数(loss function) 大于1时，其损失为0，否则损失为1-。所以在使用hinge loss function时，我们的最优化问题为最小化损失函数：

机器学习之常见的损失函数(loss function)

转化证明详见《统计学习方法》-- 李航。

对于多分类的linear SVM，我们的损失函数为多分类的hinge loss：

机器学习之常见的损失函数(loss function)

现在我们来讲一下下面公式的意思：

机器学习之常见的损失函数(loss function)

也就说对于样本x_i，对于判定为其他类别的得分机器学习之常见的损失函数(loss function) 与其正确的类型的距离不能小于，如果超过范围，则其损失为超过的值，如下图：

机器学习之常见的损失函数(loss function)

其中2的黄色框的红方点为正确类型的得分机器学习之常见的损失函数(loss function) ，delta为最小的安全距离，则预测为其他类型的得分不能超过1的黄色框中的红方点，或在1的左边损失为0，在1的右边则其损失为得分减去1的分值。

四、exp-loss (指数损失函数，AdaBoost)

在集成学习中，主要有三种集成方法Boosting、Bagging、Stacking，而Boosting中著名的代表为AdaBoost算法。

Boosting是一簇可将弱学习器提升为强学习器的算法。其工作机制为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本分布进行调整，使得先前的基学习器做错的训练样本在后续收到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到实现指定的值T，或整个集成结果达到退出条件，然后将这些学习器进行加权结合。

Adaboost 算法采用调整样本权重的方式来对样本分布进行调整，即提高前一轮个体学习器错误分类的样本的权重，而降低那些正确分类的样本的权重，这样就能使得错误分类的样本可以受到更多的关注，从而在下一轮中可以正确分类，使得分类问题被一系列的弱分类器“分而治之”。对于组合方式，AdaBoost采用加权多数表决的方法，具体地，加大分类误差率小的若分类器的权值，减小分类误差率大的若分类器的权值，从而调整他们在表决中的作用。

Adaboost的损失函数为指数损失函数。在Adaboost算法学习的过程中，经过m轮迭代之后，可以得到机器学习之常见的损失函数(loss function) :