广义线性模型

回顾之前我们介绍的一元和多元线性回归，其最终目标都是寻找一个权值向量 $w$ 和常数偏置 $b$ ，使每个样本数据 $(x, y)$ 中的 $x$ 代入二者所确立的模型

\begin{matrix} (1) & \hat{y} = w^{T} x + b \end{matrix}

中所得到的模型预测值 $\hat{y}$ 与真实值 $y$ 能够尽可能地接近。这里因变量 $y$ 与自变量 $x$ 中的每一维都是线性关系，而在现实问题中，绝大多数问题并非简单的线性情况，那么如果 $y$ 的衍生可以满足与自变量的线性关系，例如取对数以后

\begin{matrix} (2) & \ln y = w^{T} x + b \end{matrix}

我们把对数函数这类的函数称为 联系函数 ，其作用是：把真实标记 $y$ 转换成为其对应特征的线性回归值。从形式上看式 (2) 仍是线性回归，但本质已经转变成了寻找从输入空间到输出空间的非线性映射关系。

更加一般地形式化表示，我们寻找一个单调可微的联系函数 $f (∙)$ 令其满足

\begin{matrix} (3) & y = f^{- 1} (w^{T} x + b) \end{matrix}

即联系函数的 反函数的功能 在于把输入空间的线性回归值映射到输出空间上。式(3)我们就称之为“广义线性模型”。

逻辑回归(Logistic Regression)

目标

首先就这一算法的名称作一点解释。Logistic Regression 中文译作“逻辑回归”应是字面直译，Logistic在此处是指“取对数”的含义，与中文语境下的“逻辑”一词含义相去甚远，周志华教授在《机器学习》p56 作了详细说明。但大多数文献资料习惯于使用“逻辑回归”这一译法，本文后续阐述中为避免矛盾，直接采用英文原名。此外，模型名称虽有“回归”字样，但本质是分类算法。

对于二分类任务，样本数据 $(x, y), y \in {0, 1}$ ,记其自变量的线性回归值为

\begin{matrix} (4) & z = w^{T} x + b \end{matrix}

这里只需要找到一个联系函数，其反函数可以将线性回归值

z

转换为 0/ 1 即可

Sigmoid函数

考察Sigmoid函数

\begin{matrix} (5) & g (z) = \frac{1}{1 + e^{- z}} \end{matrix}

其定义域 $z \in R$ ，值域 $g (z) \in (0, 1)$ ，函数图像如下图
广义线性模型和逻辑回归的公式推导
不难发现这个函数在 $z = 0$ 的邻域内变化很快，而在这个邻域之外尤其是在正负无穷处的变化平缓，如果我们令

\begin{matrix} (6) & y = {\begin{cases} 0, g (z) \leq 0.5 即 z \leq 0 \\ 1, g (z) > 0.5 即 z > 0 \end{cases} \end{matrix}

则式(5)起到了“把输入空间的线性回归值映射到输出空间上”的作用，所以式(5)就是我们广义线性模型 一节最后提到的要寻找的联系函数的反函数，即

\begin{matrix} (7) & f^{- 1} (y) = g (z) \end{matrix}

根据函数与反函数的定义，我们可以得到以下两组等式：

f (y) = z = g^{- 1} (z) g (z) = y = f^{- 1} (y)

故以下推导得以进行：

\begin{aligned} (8) & f (y) & = z \\ (9) & = \ln \frac{g (z)}{1 - g (z)} \\ (10) & = \ln \frac{y}{1 - y} \end{aligned}

式(8)到式(9)就是将式(5)中的表示方式换一下，用

g (z)

来表示

z

，详细过程如下

\begin{aligned} g (z) = \frac{1}{1 + e^{- z}} \\ \Rightarrow & 1 + e^{- z} = \frac{1}{g (z)} \\ \Rightarrow & \frac{1}{e^{z}} = \frac{1 - g (z)}{g (z)} \\ \Rightarrow & e^{z} = \frac{g (z)}{1 - g (z)} \\ \Rightarrow & z = \ln e^{z} = \ln \frac{g (z)}{1 - g (z)} \end{aligned}

对数几率函数

在概率学中，一个事件的几率(odds)是指该事件发生概率与不发生概率的比值，如果一个事件的发生概率为 $p$ 那么该事件的几率就是 $\frac{p}{1 - p}$ ,其几率的对数我们称之为对数几率(log odds)或logit函数

\begin{matrix} (11) & l o g i t (p) = \ln \frac{p}{1 - p} \end{matrix}

若将

y

视作样本

x

类别标记为

1

的可能性，则

1 - y

是其类别标记为

0

的可能性，由式(4)(10)(11)可得：

\begin{aligned} l o g i t (P (y = 1 | x)) & = \ln \frac{P (y = 1 | x)}{1 - P (y = 1 | x)} \\ = z \\ = w^{T} x + b \end{aligned}

即说明输出

y = 1

的对数几率是输入

x

的线性函数，这就是Logistic Regression，倒回去结合式(6)就是我们最常见的Logistic Regression一般表达形式。

下一篇准备啃一块硬骨头，SVM的公式推导，FIGHTING!

参考文献：

周志华.机器学习[M].北京:清华大学出版社,2016:57-60.
李航.统计学习方法[M].北京:清华大学出版社,2012:97-103.

广义线性模型和逻辑回归的公式推导

广义线性模型

逻辑回归(Logistic Regression)

目标

Sigmoid函数

对数几率函数

相关推荐