深入理解逻辑回归算法（Logistic Regression）

在继续学习 GBDT（Gradient Boosting Decision Tree）决策树前，我们需要先来了解下逻辑回归算法（Logistic Regression），因为 GBDT 较为复杂，但在逻辑回归的基础上，理解起来会容易些。

逻辑回归是机器学习中最为基础的算法，也是工业界使用得最多的算法之一，究其原因，在于其简单、高效以及实用。

虽然线性回归也很简单，但却不实用，是因为逻辑回归本质上是一个概率模型，在实际应用中，预测一个 0-1 之间的概率值要比预测一个实数的场景要多得多，比如在广告业务中，我们往往求的是用户点击一条广告的概率。

逻辑回归是一个概率模型，但通过一定的转换，我们依然可以把该模型的预测范围从 0-1 转换到实数范围，所以它和线性回归都可以被归纳到「通用的线性模型」（Generalized Linear Model）中，要理解这种转换，我们需要引入一个概念：odds 和 log(odds)。
深入理解逻辑回归算法（Logistic Regression）
odds 和 log(odds)
odds 是几率、胜算的意思，据维基百科记载，这个概念主要在**和统计学领域中使用，且它的历史可以追溯到 16 世纪，早于概率论的发展时期。

odds 很容易理解，拿足球比赛作为例子，假设中国队打巴西队，中国队的赢面是 1，输面是 99，那么中国队赢的 odds 为 1/99，输的 odds 就是 99，odds 和概率的区别也很容易通过这个例子看出来，从概率的角度讲，中国队赢巴西队的概率为 0.01，输的概率为 0.99。

上面的例子还可以看出，中国队赢的 odds 和巴西队赢的 odds 落在不同的取值范围中，中国队赢的 odds 的落在 (0,1) 区间，而巴西队落在 (1,∞) 区间；也就是说，中国队和巴西队比赛，两个队伍的输赢程度应该是相等的，但 1/99 和 99 这两个数，它们的尺度不同，就很难对此做出直观的判断；而 log(odds) 就是用来解决该问题的：
深入理解逻辑回归算法（Logistic Regression）
可以看到，对 odds 加了 log 后，中国队赢和巴西队赢这两种情况的 log(odds) 的绝对值都是 4.6，即两者的输赢程度相同，一眼就可以看出来；且当我们算赢面的 log(odds) 时，通过正负号就可以判断赢面多还是赢面少，如 -4.6 就表示中国队的赢面是少的；此外，当 log(odds) 为 0 时，赢面和输面一样多。

log(odds) 是一个很有用的指标，你可以写一个程序，不断产生 0-100 之间的随机数 $x$ ，然后把 $x$ 对应的 $\log(\frac{x}{100-x})$ 用柱状图画出来，你会发现它符合正态分布：
深入理解逻辑回归算法（Logistic Regression）
在实际应用中，我们可以把上面的 $x$ 替换为某个网站的点击，或购买等指标，根据历史数据算出对应的 log(odds) 分布，再找一堆相关的特征来拟合这个分布，这就是我们所说的 CTR（Click Through Ratio）或 CVR（Conversion Rate）模型，后续来了一个用户，我们把他相关的特征带入到模型中，算出相应的 log(odds)，就是这个用户会点击或购买某个商品的几率。

至此，有同学会问，这和逻辑回归有什么关系？实际上，log(odds) 还有一种计算方法：
深入理解逻辑回归算法（Logistic Regression）
其实也很容易理解，依然是上面的例子，中国队胜利的概率为 p=0.1，中国队胜利的 log(odds) 为

我们把等式两边同时求一个 $e$ 次方，算出 p 值，即

这就是我们所熟知的逻辑回归，等式右边的表达式通常被称为 sigmoid 函数，而 log(odds) 又被称为 logit 函数，它们之间的转换关系如下图所示，其中 x 可看成特征向量。
深入理解逻辑回归算法（Logistic Regression）
从图中可以看出，如果把逻辑回归转化为 log(odds)，有两点明显的变化：

log(odds) 是一条直线
log(odds) 可以将逻辑回归的值域从 (0, 1) 拓宽到 (-∞, +∞)
突然有点像线性回归了，但和线性回归的差异是，逻辑回归的样本只有 0 和 1 两种取值，转换为 log(odds) 正好是 -∞ 和 +∞，这样你使用 MSE 来拟合时，得到的 Loss 永远都是个无穷大，所以用线性回归的方法来拟合逻辑回归是不可行的。在逻辑回归中，我们使用 Maximu Likelihood 来作为模型的 Loss。

Maximum Likelihood
Maximum Likelihood（最大释然估计）也是很直观的一个概念，即我现在有一堆正样本和负样本，我用一条怎样的逻辑回归曲线去拟合这些样本，能使它们所得到概率的乘积最大。

举个例子，假设下图左边是一个关于体重和肥胖的实验数据，其中绿色点标记的是正常，而红色点为肥胖，现在要使用逻辑回归对这些样本建模，假设最佳模型如下图右边所示：
深入理解逻辑回归算法（Logistic Regression）
通过该模型的计算，假设绿色样本对应的肥胖的概率由左至右分别为 0.01、0.02、0.03 和 0.9，绿色是正常样本，需要计算他们不是肥胖的概率，所以要用 1 减去这些值，即： 0.99、0.98、0.97 和 0.1；同理，再分别计算红色样本是肥胖的概率为 0.1、0.97、0.98 和 0.99，因为该曲线已经是最优的了，所以这 8 个点所对应的概率的乘积——0.0089，即是所有可能的模型中，能得到的最大值。可见，Maximum Likelihood 真的就只是其字面意思了。

线性回归中，我们使用 MSE 来衡量线性模型的好坏，MSE 越小，说明拟合得越好；而在逻辑回归中，使用的正是 Maximum Likelihood，该指标越大，模型越好。

对于样本 $x_i$ ，当它为正样本时，对应的概率为 $p(x_i)$ ，而当它为负样本时，对应的概率为 $1-p(x_i)$ ，为方便计算，我们需要只用一个式子来表示这两种情况：
深入理解逻辑回归算法（Logistic Regression）
本文我们主要通过 log(odds) 和贝叶斯分类这两个概念来学习了逻辑回归算法的原理，且了解了逻辑回归是采用 Maximum Likelihood 来作为其损失函数的，希望你和我一样，通过本文能够对逻辑回归有更深刻的理解。

详细逻辑回归算法介绍请查看原文:https://developer.aliyun.com/article/741289?utm_content=g_1000097875

深入理解逻辑回归算法（Logistic Regression）

相关推荐