菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

本文为学习笔记,供自己复习回顾,分享,交流,如果专家们发现谬误之处欢迎批评与修正。

----------------------------------------------------------------------------------------------------------------------------

1.什么是线性模型?

在数学中,变量间关系有两种基本类型:函数关系和相关关系,函数关系是确定的可以用函数式表达出来的。

因此,线性模型就是一个响应变量(因变量)与其解释变量(因变量)的线性组合存在线性关系的模型。

1.1 基本形式

给定由 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 个属性描述的示例菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型,其中菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 是 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 在第 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

 

                                              菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

其中 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 是属性权重,菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 是偏移项,菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 是误差项,一般情况下偏移项与误差项统一处理,菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 与 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 学得后,模型就可以确定了。

1.2 如何判别线性模型

我们很多情况认为直线就是线性模型,其实有些曲线也是线性模型,我刚接触这个概念时,一直很不解为什么逻辑模型是线性模型,所以在这里列出两条判断线性模型的标准方法。

1. 自变量前是否只有一个系数影响

e.g.  逻辑回归其分离面是一个线性超平面wx+b,  本质上是一个线性回归模型,其系数是线性函数,只是在其基础上加入了sigmoid映射,没有加入前其形式为

                                                               菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

加入后

                                                          菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型   菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

所以逻辑回归实质是一个线性模型。

2. 自变量前是否只有一个系数影响

 

 e.g.                     

  菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

虽然画出来是曲线关系,但是它是一个线性模型因为x1*w1 中可以观察到 x1只被一个w1影响。

 

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

这个模型就不是线性模型,因为x1不仅仅被参数w1影响,还被w5影响,如果自变量被两个以上参数影响,那么就是非线性。

1.3 条件假设

普通线性模型的假设条件有以下几点:

1. Y与 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 正态性: Y 与  菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 服从正态分布,并且 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型  具有零均值,同方差的特性。

2. 自变量X和其参数 W 非随机性:自变量具有非随机性,可测且不存在测量误差,参数W认为是未知但不具有随机性的常数,值得注意的是,运用最小二乘或者极大似然解出参数W的估计值菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型具有正态性。

3. 研究对象,普通线性模型主要研究相应变量的均值 E[Y].

4. 联接方式, 在上面三点假设下,对基本公式两边取数学期望,可得

 

                       菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

因此,在普通线性模型中,响应变量的均值 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 与 描述变量的线性组合通过恒等式联接,也可以认为是通过形如菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型的联接函数(link function)进行联接,即

 

     菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

1.4 特点

线性模型形式简单,易于建模,但却蕴含着机器学习中一些重要的基本思想,并且由于W直观表达了个属性的权重重要性,所以线性模型有很好的解释性。

但线性回归并不适用于所有情况,很多相应变量并不能简单地被变量线性组合解释,例如我们最熟悉的二分类问题采用的逻辑回归,所以我们扩展了简单线性模型为广义线性模型用来解决更多的问题,其实逻辑回归也是一种广义线性模型。

 

2.GLM 广义线性模型

2.1 指数分布族

介绍GLM前,我们需要先了解指数分布族,大多数或者可以说我们接触的GLM都是服从指数分布族的,因为我们所见到的高斯分布,伯努利分布,泊松分布等等都是属于指数分布族的。

2.1.1 基本形式

服从指数分布族的条件是概率分布可以写成如下形式(注:不是概率密度函数,因为不同教材采用的不一样):

 

                                                菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型: 底层观测值

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 :自然参数,指数分布族唯一参数,通常为一个实数

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型: 充分统计量,很多情况下菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 被称作 log partition function

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型: 配分函数

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 本质上在归一化常数发挥了作用, 确保了 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型  分布 关于 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 的和或积分 是 1.

固定的T , a,  b 函数定义了一个以 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 自以为ucabs关于的分布族,当改变 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 时,得到族内的不同分布。

2.1.2 常见分布推导

为了加深理解和认识,这里会推导出几种常见分布的指数分布形式。

1.伯努利分布

伯努利分布是对0,1分布的问题进行建模,对于菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型,其概率密度函数如下,

                                                               菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

因此,

                                                          菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                                           菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                                           菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

其中:菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                          菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                          菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                          菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                          菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

2.高斯分布(正态分布)

方差没影响,所以为了方便起见将方差设为1,因此过程如下:

                                             菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                                               菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

其中:

                                             菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                             菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                             菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                                             菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

2.2 假设条件

说是假设,其实更应该是设计广义线性模型的条件,下面由三个条件:

1.响应变量基于解释变量的条件概率分布服从指数分布族,即:菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

2. 对于给定的输入变量X,学习的目标是预测菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型的期望值,其实,菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型经常就是菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

3.菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型和输入变量X的关联是线性的,即: 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

e.g. 线性回归的条件概率分布是正态分布,为指数分布族; 我们的目的是预测菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 的期望,由上述高斯推导知道,菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型,而 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 的期望值也就是正太分布参数 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 ,由上述可知,菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型,而且菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型,所以线性回归为广义线性回归的一个特例。

其模型为:

                                                                               菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

2.3 组成成分

GLM广义线性模型由三部分组成:

1. 随机部分(Random Component)

响应变量及其概率分布,服从指数族。

e.g.

当处理连续值时,服从正态分布,使用简单线性回归。

当处理服从二项分布的输出二分类的时候,使用逻辑回归。

当处理随机事件次数的时候,服从泊松分布,使用泊松回归。

2.系统部分 (Systermatic Component)

是一个线性模型形如:

                                菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

3.联接部分 (Link Component)

联接函数 菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型 用来联接 随机部分和系统部分,即:

                                                        菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

                           菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

注:联接函数是单调可导的。

常见分布的经典应用以及联接函数如下:

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

 

2.4 怎样使用广义线性模型

下面的流程图已经很好的解释了什么情况下如何使用GLM:

菜鸟的数据分析学习记003 ---------EB520X--------GLM广义线性模型

参考:1.周志华《机器学习》