1. 机器学习中常见的损失函数

一般来说，我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其目标函数，又称为代价函数(Cost Function)。损失函数是用来评价模型的预测值 Y^=f(X) 与真实值Y的不一致程度，它是一个非负实值函数。通常使用 L(Y,f(x)) 来表示损失函数，损失函数越小，模型的性能就越好。

设总有N个样本的样本集为(X,Y)=(xi,yi)，yi,i∈[1,N]为样本i的真实值，y^i=f(xi)，i∈[1,N] 为样本i的预测值，f 为分类或者回归函数。那么总的损失函数为：

L = \sum i = 1 N ℓ (y i, y^i)

常见的损失函数 ℓ(yi,y^i) 有以下几种：

1.1 Zero-one Loss

Zero-one Loss即0-1损失，它是一种较为简单的损失函数，如果预测值与目标值不相等，那么为1，否则为0，即：

ℓ(yi,y^i)={10yi≠y^iyi=y^i

该损失函数的意义就是，当预测错误时，损失函数值为1，预测正确时，损失函数值为0。该损失函数不考虑预测值和真实值的误差程度，也就是只要预测错误，预测错误差一点和差很多是一样的。可以看出上述的定义太过严格，如果真实值为1，预测值为0.999，那么预测应该正确，但是上述定义显然是判定为预测错误，那么可以进行改进为Perceptron Loss。

1.2 Perceptron Loss

Perceptron Loss即为感知损失。即：

ℓ(yi,y^i)={10|yi−y^i|<t|yi−y^i|≥t

其中t是一个超参数阈值，如在PLA(Perceptron Learning Algorithm,感知机算法)中取t=0.5。

1.3 Hinge Loss

Hinge损失可以用来解决间隔最大化问题，如在SVM中解决几何间隔最大化问题，其定义如下：

ℓ(yi,y^i)=max{0,1−yi⋅y^i}yi∈{−1,+1}

更多请参见：Hinge-loss。

1.4 Log Loss

在使用似然函数最大化时，其形式是进行连乘，但是为了便于处理，一般会套上log，这样便可以将连乘转化为求和，由于log函数是单调递增函数，因此不会改变优化结果。因此log类型的损失函数也是一种常见的损失函数，如在LR(Logistic Regression, 逻辑回归)中使用交叉熵(Cross Entropy)作为其损失函数。即：

ℓ(yi,y^i)=yi⋅log(y^i)+(1−yi)⋅log(1−y^i);yi∈{0,1}

规定

0 \cdot l o g (0) = 0

1.5 Square Loss

Square Loss即平方误差，常用于回归中。即：

ℓ (y i, y^i) = (y i - y^i) 2 y i, y^i \in R

1.6 Absolute Loss

Absolute Loss即绝对值误差，常用于回归中。即：

ℓ (y i, y^i) = | y i - y^i | y i, y^i \in R

1.7 Exponential Loss

Exponential Loss为指数误差，常用于boosting算法中，如AdaBoost。即：

ℓ(yi,y^i)=exp(−yi⋅y^i)yi∈{−1,1}

1.8 各损失函数图形如下：

2. 正则

一般来说，对分类或者回归模型进行评估时，需要使得模型在训练数据上使得损失函数值最小，即使得经验风险函数最小化，但是如果只考虑经验风险(Empirical risk)，容易过拟合(详细参见防止过拟合的一些方法)，因此还需要考虑模型的泛化能力，一般常用的方法便是在目标函数中加上正则项，由损失项(Loss term)加上正则项(Regularization term)构成结构风险(Structural risk)，那么损失函数变为：

L = \sum i = 1 N ℓ (y i, y^i) + λ \cdot R (ω)

其中λ是正则项超参数，常用的正则方法包括：L1正则与L2正则。

正则化方法是指在进行目标函数或代价函数优化时，在目标函数或代价函数后面加上一个正则项，一般有L1正则与L2正则等。

2.1 L1正则

L1正则是基于L1范数，即在目标函数后面加上参数的L1范数和项，即参数绝对值和与参数的积项，即：

C = C 0 + λ n \sum w | w |

其中 C0 代表原始的代价函数，n是样本的个数，λ就是正则项系数，权衡正则项与 C0 项的比重。后面那一项即为L1正则项。

在计算梯度时，w的梯度变为：

\partial C \partial w = \partial C 0 \partial w + λ n s i g n (w)

其中，sign是符号函数，那么便使用下式对参数进行更新：

w : = w + α \partial C 0 \partial w + β λ n s i g n (w)

对于有些模型，如线性回归中（L1正则线性回归即为Lasso回归），常数项b的更新方程不包括正则项，即：

b : = b + α \partial C 0 \partial b

其中，梯度下降算法中，α<0,β<0，而在梯度上升算法中则相反。

从上式可以看出，当w为正时，更新后w会变小；当w为负时，更新后w会变大；因此L1正则项是为了使得那些原先处于零（即|w|≈0）附近的参数w往零移动，使得部分参数为零，从而降低模型的复杂度（模型的复杂度由参数决定），从而防止过拟合，提高模型的泛化能力。

其中，L1正则中有个问题，便是L1范数在0处不可导，即|w|在0处不可导，因此在w为0时，使用原来的未经正则化的更新方程来对w进行更新，即令sign(0)=0，这样即：

s i g n (w) | w > 0 = 1, s i g n (w) | w < 0 = - 1, s g n (w) | w = 0 = 0

2.2 L2正则

L2正则是基于L2范数，即在目标函数后面加上参数的L2范数和项，即参数的平方和与参数的积项，即：

C = C 0 + λ 2 n \sum w w 2

其中C0代表原始的代价函数，n是样本的个数，与L1正则化项前面的参数不同的是，L2项的参数乘了12，是为了便于计算以及公式的美感性，因为平方项求导有个2，λ就是正则项系数，权衡正则项与C0项的比重。后面那一项即为L2正则项。

L2正则化中则使用下式对模型参数进行更新：

w : = w + α \partial C 0 \partial w + β λ n w

对于有些模型，如线性回归中（L2正则线性回归即为Ridge回归，岭回归），常数项b的更新方程不包括正则项，即：

b : = b + α \partial C 0 \partial b

其中，梯度下降算法中，α<0,β<0，而在梯度上升算法中则相反。

从上式可以看出，L2正则项起到使得参数w变小加剧的效果，但是为什么可以防止过拟合呢？一个通俗的理解便是：更小的参数值w意味着模型的复杂度更低，对训练数据的拟合刚刚好（奥卡姆剃刀），不会过分拟合训练数据，从而使得不会过拟合，以提高模型的泛化能力。

在这里需要提到的是，在对模型参数进行更新学习的时候，有两种更新方式，mini-batch （部分增量更新）与 full-batch（全增量更新），即在每一次更新学习的过程中（一次迭代，即一次epoch），在mini-batch中进行分批处理，先使用一部分样本进行更新，然后再使用一部分样本进行更新。直到所有样本都使用了，这次epoch的损失函数值则为所有mini batch的平均损失值。设每次mini batch中样本个数为m，那么参数的更新方程中的正则项要改成：

λ m \sum w | w |

λ 2 m \sum w w 2

而full-batch即每一次epoch中，使用全部的训练样本进行更新，那么每次的损失函数值即为全部样本的误差之和。更新方程不变。

2.3 小结

正则项是为了降低模型的复杂度，从而避免模型区过分拟合训练数据，包括噪声与异常点（outliers）。从另一个角度上来讲，正则化即是假设模型参数服从先验概率，即为模型参数添加先验，只是不同的正则化方式的先验分布是不一样的。这样就规定了参数的分布，使得模型的复杂度降低（试想一下，限定条件多了，是不是模型的复杂度降低了呢），这样模型对于噪声与异常点的抗干扰性的能力增强，从而提高模型的泛化能力。还有个解释便是，从贝叶斯学派来看：加了先验，在数据少的时候，先验知识可以防止过拟合；从频率学派来看：正则项限定了参数的取值，从而提高了模型的稳定性，而稳定性强的模型不会过拟合，即控制模型空间。

另外一个角度，过拟合从直观上理解便是，在对训练数据进行拟合时，需要照顾到每个点，从而使得拟合函数波动性非常大，即方差大。在某些小区间里，函数值的变化性很剧烈，意味着函数在某些小区间里的导数值的绝对值非常大，由于自变量的值在给定的训练数据集中的一定的，因此只有系数足够大，才能保证导数的绝对值足够大。如下图：

另外一个解释，规则化项的引入，在训练（最小化cost）的过程中，当某一维的特征所对应的权重过大时，而此时模型的预测和真实数据之间距离很小，通过规则化项就可以使整体的cost取较大的值，从而，在训练的过程中避免了去选择那些某一维（或几维）特征的权重过大的情况，即过分依赖某一维（或几维）的特征。

L2与L1的区别在于，L1正则是拉普拉斯先验，而L2正则则是高斯先验。它们都是服从均值为0，协方差为1λ。当λ=0时，即没有先验）没有正则项，则相当于先验分布具有无穷大的协方差，那么这个先验约束则会非常弱，模型为了拟合所有的训练集数据，参数w可以变得任意大从而使得模型不稳定，即方差大而偏差小。λ越大，标明先验分布协方差越小，偏差越大，模型越稳定。即，加入正则项是在偏差bias与方差variance之间做平衡tradeoff。下图即为L2与L1正则的区别：

上图中的模型是线性回归，有两个特征，要优化的参数分别是w1和w2，左图的正则化是L2，右图是L1。蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是红色边界（就是正则化那部分），二者相交处，才是最优参数。可见右边的最优参数只可能在坐标轴上，所以就会出现0权重参数，使得模型稀疏。

其实拉普拉斯分布与高斯分布是数学家从实验中误差服从什么分布研究中得来的。一般直观上的认识是服从应该服从均值为0的对称分布，并且误差大的频率低，误差小的频率高，因此拉普拉斯使用拉普拉斯分布对误差的分布进行拟合，如下图：

而拉普拉斯在最高点，即自变量为0处不可导，因为不便于计算，于是高斯在这基础上使用高斯分布对其进行拟合，如下图：

3. 典型算法

分类是监督学习的一个核心问题，在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction)，称为分类(classification)。

统计学习方法都是由模型，策略，和算法构成的，即统计学习方法由三要素构成，可以简单表示为：

方法 = 模型 + 策略 + 算法
对于logistic回归来说，模型自然就是logistic回归，策略最常用的方法是用一个损失函数(loss function)或代价函数(cost function)来度量预测错误程度，算法则是求解过程，后期会详细描述相关的优化算法。

3.1 逻辑回归详解

3.1.1 逻辑回归简介

逻辑回归在某些书中也被称为对数几率回归，明明被叫做回归，却用在了分类问题上，我个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。

假设有一个二分类问题，输出为y∈{0,1}，而线性回归模型产生的预测值为 z=wTx+b 是实数值，我们希望有一个理想的阶跃函数来帮我们实现z值到0/1值的转化：

ϕ (z) = ⎧ ⎩ ⎨ 0 0.5 1 if z < 0 if z = 0 if z > 0

然而该函数不连续，我们希望有一个单调可微的函数来供我们使用，于是便找到了 Sigmoid 函数来替代：

ϕ (z) = 1 1 + e - z

他们的函数图像如下所示：

有了Sigmoid 函数之后，由于其取值范围为[0,1]。我们就可以将其视为类1的后验概率估计p(y=1|x)。说白了，就是如果有了一个测试点x，那么就可以用Sigmoid 函数算出来的结果来当做该点x属于类别1的概率大小。

于是，非常自然地，我们把Sigmoid函数计算得到的值大于等于0.5的归为类别1，小于0.5的归为类别0：

y^={10if ϕ(z)≥0.5otherwise

同时逻辑回归于自适应线性网络非常相似，两者的区别在于逻辑回归的**函数时Sigmoid function而自适应线性网络的**函数是y=x，两者的网络结构如下图所示：

自适应线性网络

从损失函数的角度详解常见机器学习算法

逻辑回归网络

3.1.2 逻辑回归的损失函数

好了，所要用的几个函数我们都好了，接下来要做的就是根据给定的训练集，把参数w给求出来了。要找参数w，首先就是得把代价函数（cost function）给定义出来，也就是目标函数。

我们第一个想到的自然是模仿线性回归的做法，利用误差平方和来当代价函数。

J (w) = \sum i 12 (ϕ (z (i)) - y (i)) 2

其中，z(i)=wTx(i)+b，i表示第i个样本点，y(i) 表示第i个样本的真实值，ϕ(z(i)) 表示第i个样本的预测值。
这时，如果我们将 ϕ(z(i))=11+e−z(i) 代入的话，会发现这时一个非凸函数，这就意味着代价函数有着许多的局部最小值，这不利于我们的求解：

那么我们不妨来换一个思路解决这个问题。前面，我们提到了ϕ(z)可以视为类1的后验估计，所以我们有：

p (y = 1 | x; w) = ϕ (w T x + b) = ϕ (z)

p (y = 0 | x; w) = 1 - ϕ (z)

其中，p(y=1|x;w)表示给定w，那么x点y=1的概率大小。于是上面两式可以写成一般形式：

p (y | x; w) = ϕ (z) y (1 - ϕ (z)) (1 - y)

注：以上的过程说明，最大似然估计与误差平方和等价！这就是为什么逻辑回归的损失函数可以用最大似然函数进行估计的原因。

接下来我们就要用极大似然估计来根据给定的训练集估计出参数w：

L (w) = \prod i = 1 n p (y (i) | x (i); w) = \prod i = 1 n (ϕ (z (i))) y (i) (1 - ϕ (z (i))) 1 - y (i)

为了简化运算，我们对上面这个等式的两边都取一个对数：

l (w) = l n L (w) = \sum i = 1 n y (i) l n (ϕ (z (i))) + (1 - y (i)) l n (1 - ϕ (z (i)))

我们现在要求的是使得l(w)最大的w。没错，我们的代价函数出现了，我们在l(w)前面加个负号不就变成就最小了吗？不就变成我们代价函数了吗？

J (w) = - l (w) = - \sum i = 1 n y (i) l n (ϕ (z (i))) + (1 - y (i)) l n (1 - ϕ (z (i)))

为了更好地理解这个代价函数，我们不妨拿一个例子的来看看：

J (ϕ (z), y; w) = - y l n (ϕ (z)) - (1 - y) l n (1 - ϕ (z))

也就是说 :

J (ϕ (z), y; w) = {- l n (ϕ (z)) - l n (1 - ϕ (z)) i f y = 1 i f y = 0

下面是函数图：

从图中不难看出，如果样本的值是1的话，估计值ϕ(z)越接近1付出的代价就越小，反之越大；同理，如果样本的值是0的话，估计值ϕ(z)越接近0付出的代价就越小，反之越大。

3.1.3 梯度下降法求参

在开始梯度下降之前，要这里插一句，sigmoid function有一个很好的性质就是：

ϕ' (z) = ϕ (z) (1 - ϕ (z))

先记住这个性质，后续会用到。

还有，我们要明确一点，梯度的负方向就是代价函数下降最快的方向。什么？为什么？好，我来说明一下。借助于泰特展开，我们有：

f (x + δ) - f (x) \approx f' (x) \cdot δ

其中，f′(x)和δ为向量，那么这两者的内积就等于 :

f' (x) \cdot δ = | | f' (x) | | \cdot | | δ | | \cdot c o s θ

当θ=π时，也就是δ在f′(x)的负方向上时，取得最小值，也就是下降的最快的方向了~

okay？好，坐稳了，我们要开始下降了。

w : = w + Δ w, Δ w = - η \nabla J (w)

没错，就是这么下降。没反应过来？那我再写详细一些 :

w j : = w j + Δ w j, Δ w j = - η \partial J (w) \partial w j

其中，wj表示第j个特征的权重；η为学习率，用来控制步长。
重点来了:

∂J(w)wj=−∑ni=1(y(i)1ϕ(z(i))−(1−y(i))11−ϕ(z(i)))∂ϕ(z(i))∂wj=−∑ni=1(y(i)1ϕ(z(i))−(1−y(i))11−ϕ(z(i)))ϕ(z(i))(1−ϕ(z(i)))∂z(i)∂wj=−∑ni=1(y(i)(1−ϕ(z(i)))−(1−y(i))ϕ(z(i)))x(i)j=−∑ni=1(y(i)−ϕ(z(i)))x(i)j

所以，在使用梯度下降法更新权重时，只要根据下式即可：

w j : = w j + η \sum i = 1 n (y (i) - ϕ (z (i))) x (i) j

此式与线性回归时更新权重用的式子极为相似，也许这也是逻辑回归要在后面加上回归两个字的原因吧。当然，在样本量极大的时候，每次更新权重会非常耗费时间，这时可以采用随机梯度下降法，这时每次迭代时需要将样本重新打乱，然后用下式不断更新权重：

w j : = w j + η (y (i) - ϕ (z (i))) x (i) j, f o r i i n r a n g e (n)

从损失函数的角度详解常见机器学习算法