《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

基本形式

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

  • 问题描述:给定由d个属性描述的示例x=(x1;x2;x3…xd),其中xi是x的第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测函数,
  • 函数形式:f(x) = w1x1+w2x2+…wdxd+b,
  • 向量形式:《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
    例:西瓜问题中学的“f好瓜(x)=0.2x色泽+0.5x根蒂+0.3*x敲声+1”,则意味着可通过综合考虑色泽、根蒂和敲声来判断瓜好不好,由式子可以看出,其中根蒂最要紧,而敲声比色泽更重要。

非线性模型可以在线性模型的基础上通过引入层级结构或高维映射而得。

线性回归

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

2.1 问题描述

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

2.2 一元线性回归

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

  1. 训练集只有一个属性
  2. 给定数据集 D = { ( x i , y i ) } i = 1 m D=\left\{\left(x_{i,}y_i\right)\right\}^m_{i=1} D={(xi,yi)}i=1m
  3. 线性预测表示为:f(xi)=wxi+b,通过训练集得到w和b的值,使得f(xi)≈yi。

若属性值间存在“序”关系,可通过连续化将其转化为连续值,例如二值属性“身高”的取值“高”“矮”可转化为{1,0},三值属性“高度”的取值“高”“中”“低”可转化为{1,0.5,0};

若属性值间不存在序关系,假定有个k个属性值,则通常转化为k维向量,例如属性“瓜类”的取值“西瓜”“南瓜”“黄瓜”可转化为(0,0,1),(0,1,0),(1,0,0).

  • 目标函数:如何确定w和b呢?显然在于如何衡量f(x)与y之间的差别。均方误差是回归任务中最常用的性能度量。我们试图让均方误差最小化
    《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
    均方误差对应了常用的欧几里得距离或简称“欧氏距离”。基于均方误差最小化来进行模型求救的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

2.3 多元线性回归

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

  1. 训练样本有d个属性
  2. 对于m个样本和d个属性的数据集D,可以表示为: 《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
  3. 类似使用最小二乘法,线性预测使得如下指标最小
    《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
    然而在实际情况中这个条件不一定能够满足,比如属性数目比较多,甚至超过样例数,导致X的列数多于行数,这就相当于多元方程组变量数目>方程数,就会有多组解。选择哪个解便由学习算法的归纳偏好决定,常见的做法是引入正则化。(见6.4和11.4)

高维问题可以用梯度反向传播法,见3.7

2.4 对数线性回归log-linear regression

原型: y = w T x + b y=w^Tx+b y=wTx+b
对数: ln ⁡ y = w T x + b \ln y=w^Tx+b lny=wTx+b
本质:《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题

2.5广义线性模型

考虑更一般的情况,有link function联系函数g()

现实情况不可能每次都能用线性模型进行拟合,如果对输出y做空间的非线性映射,便可得到广义的线性模型,从线性到非线性。
《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
此时g(.)=ln(.)

对数几率分析

3.1 二分类任务

理想状态是单位阶跃函数
《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
若预测值z为正,则判断为正例,为负则判断为反例,为0则任意判别。

但阶跃函数并不是可微的,因此必须寻找替代函数surrogate function。目前使用比较广泛的是对数几率函数logistic function,它是Sigmoid函数的一种。它的好处在于:

  1. 单调可微
  2. 在0处变化陡峭,最接近阶跃函数,适合二分类
  3. 《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
    《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
    将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值称为
    几率:x取1的相对可能性odd y 1 − y \frac{y}{1-y} 1yy

对数几率log odds: ln ⁡ y = y 1 − y \ln y=\frac{y}{1-y} lny=1yy
从本质上讲,对数几率回归模型logistic regression就是在用线性回归模型的预测结果去逼近真实标记的对数几率。

3.2 优点

虽然还是回归模型,但却是一种分类学习方法。之前普遍翻译为逻辑回归,意义相去甚远,还是用对数几率回归比较符合一些。它的好处在于:

  1. 将分类进行建模,无需事先假设数据分布,避免假设分布不准确所带来的问题
  2. 不仅分类,还可得到近似概率预测,可利用概率辅助决策
  3. 对率函数是任意阶可导的凸函数,有很好的数学性质,可方便求取最优解

3.3 求解

确定模型之后,接下来自然要做的就是确定w和b。这里要使用到的方法是极大似然法maximum likelihood method。
极大似然估计详解.
似然项可以用来衡量训练样本在多大程度上符合假设的分布。
如何理解似然函数?.
或者参考7.2节

不过我有点儿转不过来弯,(3.27)这里为什么要用最小化?先放这儿,看之后能不能解决。

线性判别分析 (LDA)

《机器学习》周志华 --第3章 线性模型 思维导图+笔记+习题
LDA 的思想非常朴素: 给定训练样例集, 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;

多分类学习

类别不平衡问题