分类问题的本质是确定样本 $x$ 属于类别 $c_{i}$ 的概率 $p (C_{i} | x)$ 。在上周整理的分类问题中，我们采用生成式方法，借助贝叶斯公式和极大似然估计，首先计算出 $p (x | C_{i})$ 和 $p (x, C_{i})$ ，然后再计算出 $p (C_{i} | x)$ 。以二分类为例：

\begin{matrix} (1) & p (C_{1} | x) = \frac{p (C_{1}, x)}{p (x)} = \frac{p (x | C_{1}) p (C_{1})}{p (x)} = \frac{p (x | C_{1}) p (C_{1})}{p (x | C_{1}) p (C_{1}) + p (x | C_{2}) p (C_{2})} \end{matrix}

如果 $p (C_{1} | x) > 0.5$ ，则将 $x$ 归入类别 $C_{1}$ ；如果 $p (C_{1} | x) < 0.5$ ，则将 $x$ 归入类别 $C_{2}$ 。一般情况下，我们将 $p (x | C_{1})$ 和 $p (x | C_{2})$ 假设成服从不同 $μ_{1}$ ， $μ_{2}$ 但是相同 $Σ$ 的高斯分布。因为高斯分布是自然界中最常见的一种分布，两个分布同用一个协方差矩阵 $Σ$ 有助于减少参数数目，防止过拟合。

Logistic回归推导

现在我们尝试对上述后验概率（1）进行变形

\begin{array}{rcl} p (C_{1} | x) & = & \frac{p (x | C_{1}) p (C_{1})}{p (x | C_{1}) p (C_{1}) + p (x | C_{2}) p (C_{2})} \\ = & \frac{1}{1 + \frac{p (x | C_{2}) p (C_{2})}{p (x | C_{1}) p (C_{1})}} \\ = & \frac{1}{1 + e x p (- z)} \\ = & σ (z) \end{array}

其中 $z = l n \frac{p (x | C_{1}) p (C_{1})}{p (x | C_{2}) p (C_{2})}$ 。上面 $σ (z) = \frac{1}{1 + e x p (- z)}$ 正是Sigmoid函数，该函数具有良好的性质，能够将 $z$ 值转化为一个(0,1)区间内的值，并且 $z = 0$ 时， $σ (z) = 0.5$ 。同时该函数是单调连续可微的。Sigmoid函数的图像如下图所示：

现在还需要确定的是 $z$ 是什么，我们继续对 $z$ 进行推导

\begin{array}{rcl} z & = & l n \frac{p (x | C_{1}) p (C_{1})}{p (x | C_{2}) p (C_{2})} \\ = & l n \frac{p (x | C_{1})}{p (x | C_{2})} + l n \frac{p (C_{1})}{p (C_{2})} \\ = & l n \frac{\frac{1}{(2 π)^{D / 2}} \frac{1}{| Σ^{1} |^{1 / 2}} e x p {- \frac{1}{2} (x - μ^{1})^{T} (Σ^{1})^{- 1} (x - μ^{1})}}{\frac{1}{(2 π)^{D / 2}} \frac{1}{| Σ^{2} |^{1 / 2}} e x p {- \frac{1}{2} (x - μ^{2})^{T} (Σ^{2})^{- 1} (x - μ^{2})}} + l n \frac{\frac{N_{1}}{N_{1} + N_{2}}}{\frac{N_{2}}{N_{1} + N_{2}}} \\ (2.4) & = & l n \frac{| Σ^{2} |^{1 / 2}}{| Σ^{1} |^{1 / 2}} - \frac{1}{2} [(x - μ^{1})^{T} (Σ^{1})^{- 1} (x - μ^{1}) - (x - μ^{2})^{T} (Σ^{2})^{- 1} (x - μ^{2})] + l n \frac{N_{1}}{N_{2}} \\ (2.5) & = & (μ^{1} - μ^{2})^{T} Σ^{- 1} x - \frac{1}{2} (μ^{1})^{T} Σ^{- 1} μ^{1} + \frac{1}{2} (μ^{2})^{T} Σ^{- 1} μ^{2} + l n \frac{N_{1}}{N_{2}} \end{array}

其中从(2.4)到(2.5)是因为 $Σ^{1} = Σ^{2} = Σ$ 。再进一步观察式(2.5)， $(μ^{1} - μ^{2})^{T} Σ^{- 1}$ 的结果是一个向量，而 $x$ 后面一串是一个数字，因此 $z$ 可以写成 $z = w^{T} x + b$ 的形式，所以

\begin{matrix} (3) & p (C_{1} | x) = σ (w^{T} x + b) = \frac{1}{1 + e^{- (w^{T} x + b)}} \end{matrix}

上式（3）就称为Logistic 回归。在生成模型中，我们先求出 $μ^{1}$ ， $μ^{2}$ ， $Σ$ ，然后求出 $w$ 和 $b$ 。这样做难免显得太过复杂，我们希望直接找出 $w$ 和 $b$ 。结合机器学习的三个步骤，第一步确定一个模型 $f (x)$ ，这一步已经完成 $f (x) = p (C_{1} | x)$ 。如果 $p (C_{1} | x) > 0.5$ ，则输出 $C_{1}$ ，否则输出 $C_{2}$ 。接下来需要做的是选择一个恰当的损失函数用以度量找出来的 $w$ 和 $b$ 的好坏。

Logistic回归损失函数

根据以往回归模型的经验，损失函数的选取第一反应是均方误差函数，因此我们首先尝试使用均方误差。为了使目标标签 $C_{1}$ ， $C_{2}$ 能够参与运算，我们需要将其数字化，规定：样本类别为 $C_{1}$ ， $\hat{y} = 1$ ；样本类别为 $C_{2}$ ， $\hat{y} = 0$ 。因此损失函数可以写作：

L (f) = \frac{1}{2} \sum_{i = 1}^{m} (f (x^{(i)}) - {\hat{y}}^{(i)})^{2}

对其进行求导

\frac{\partial (f (x) - \hat{y})^{2}}{\partial w_{i}} = 2 (f (x) - \hat{y}) f (x) (1 - f (x)) x_{i}

具体分析，当 ${\hat{y}}^{(i)} = 1$ ， $f (x^{(i)}) = 0$ ，说明模型误差还很大，距离目标很远，但上式导数 $\partial L (f (x^{(i)})) / \partial w_{i} = 0$ ；另一种情况，当 ${\hat{y}}^{(i)} = 0$ ， $f (x^{(i)}) = 1$ ，同样说明模型误差还很大，距离目标很远，但上式导数 $\partial L (f (x^{(i)})) / \partial w_{i} = 0$ 。而所有样本或者大多数样本的导数等于零时， $\partial L / \partial w_{i} \approx 0$ ，参数将不再更新，但此时我们明显没有找到最佳参数，所以均方误差函数不是一个恰当的损失度量函数。

换一个角度思考，既然Logistic回归计算出了 $p (C_{1} | x)$ ，那么对于那些属于 $C_{2}$ 类别的样本其概率为 $p (C_{2} | x) = 1 - p (C_{1} | x)$ 。我们同样可以采用极大似然法来估计 $w$ 和 $b$ ，即希望每个样本属于其真实标记的概率越大越好。

\begin{matrix} (4) & \begin{array}{rcl} L (w, b) & = & l n \prod_{i = 1}^{m} p ({\hat{y}}^{(i)} | x^{(i)}) \\ = & \sum_{i = 1}^{m} l n p ({\hat{y}}^{(i)} | x^{(i)}) \end{array} \end{matrix}

又因为

\begin{matrix} (5) & p ({\hat{y}}^{(i)} | x^{(i)}) = {\hat{y}}^{(i)} f (x^{(i)}) + (1 - {\hat{y}}^{(i)}) (1 - f (x^{(i)})) \end{matrix}

将式（5）带入（4），同时将最大化变成最小化，可得

\begin{matrix} (6) & L (w, b) = - \sum_{i = 1}^{m} [{\hat{y}}^{(i)} l n f (x^{(i)}) + (1 - {\hat{y}}^{(i)}) l n (1 - f (x^{(i)}))] \end{matrix}

上式（6）称为交叉熵（cross entropy）损失函数，同样采用梯度下降法求得最优解

w^{*}, b^{*} = a r g min_{w, b} L (w, b)

寻找最佳参数

交叉熵损失函数虽然看起来形式复杂，但是求导并不复杂

\frac{\partial L (w, b)}{\partial w_{j}} = - \sum_{i = 1}^{m} ({\hat{y}}^{(i)} - f (x^{(i)})) x_{j}^{(i)} \frac{\partial L (w, b)}{\partial b} = - \sum_{i = 1}^{m} ({\hat{y}}^{(i)} - f (x^{(i)}))

求导结果与线性回归均方误差的导数一模一样。采用梯度下降算法更新参数

w_{i} = w_{i} - η \sum_{i = 1}^{m} - ({\hat{y}}^{(i)} - f (x^{(i)})) x_{j}^{(i)} b = b - η \sum_{i = 1}^{m} - ({\hat{y}}^{(i)} - f (x^{(i)}))

关于交叉熵损失函数与均方误差损失函数的对比可以参考下图

可以看出均方误差损失函数的曲面近乎是平坦的，因此梯度下降很容易停下来，而交叉熵损失函数则不会出现这个问题。

总结

Logistic回归相较于生成式模型操作简单，并且准确率也比较的高，但这并不表明Logistic回归能够解决所有的二分类问题，因为Logistic回归的分界面是一个平面，因此对于线性不可分问题，Logistic回归将束手无策，需要借助更加复杂的分类器。

参考文献

李宏毅机器学习2017年秋

机器学习系列（八）——Logistic回归解决二分类问题

Logistic回归推导

Logistic回归损失函数

寻找最佳参数

总结

参考文献

相关推荐