统计学习方法(第2版)李航著 学习笔记

第1章 统计学习及监督学习概论

监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。本章简要叙述统计学习及监督学习的一些基本概念。

1.1统计学习

统计学习的特点

主要特点:

  1. 以计算机及网络为平台,是建立在计算机及网络上的;
  2. 以数据为研究对象,是数据驱动的学科;
  3. 目的是对数据进行预测与分析;
  4. 以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
  5. 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系和方法论。

学习定义: 一个系统能够通过执行某个过程改进它的性能。
统计学习就是计算机系统通过运行数据及统计方法提高系统性能的机器学习

统计学习的对象

统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习的前提:统计学习关于数据的基本假设是同类数据具有一定的统计规律性。

统计学习的目的

对数据的预测与分析是通过构建概率统计模型实现的。
统计学习总的目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

统计学习的方法

统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析。

统计学习方法概括:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测。

最优模型的选取由算法实现,包括模型的假设空间、模型选择的准则以及模型学习的算法,简称为三要素:模型、策略和算法。

实现统计学习方法的步骤:
(1)得到一个有限的训练数据的集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现秋节最优模型的算法,即学习的算法;
(5)通过学习方法选择最优的算法;
(6)利用学习的最优模型对新数据及进行预测或分析。

监督学习方法:分类、标注与回归问题。

1.2统计学习的分类

基本分类

统计学习包括监督学习、无监督学习、强化学习、半监督学习、主动学习。

监督学习

监督学习是指从标注数据中学习预测模型的机器学习问题。实质是学习输入到输出的映射的统计规律。
1.输入空间、特征空间与输出空间
输入空间:输入所有可能取值的集合
输出空间:输出所有可能取值的集合
特征空间:所有特征向量存在的空间称为特征空间。特征向量是每个具体输入(实例)的表示。特征空间的每一个维度对应一个特征。
训练数据通常表示为:
T={(x1,y1),(x2,y2),…,(xN,yN)}T={(x1,y1),(x2,y2),…,(xN,yN)}

在监督学习中,输入、输出变量用大写字母表示:输入为X,输出为Y;输入、输出变量所取的值用小写字母表示:输入变量的取值为x,输出变量的取值为y。(
监督学习从训练数据集合中学习模型,对测试数据进行预测。
输入与输出对又称为样本或样本点。

预测任务:
回归问题:输入输出变量均为连续变量的预测问题;
分类问题:输出变量为有限个离散变量的预测问题;
标注问题:输入变量与输出变量均为变量序列的预测问题。

2.联合概率分布
监督学习关于数据的基本假设:监督学习假设输入与输出随机变量X和Y遵循联合概率分布P(X,Y),训练数据与测试数据被看作是依联合概率分布独立同分布产生的。统计学习假设数据存在一定的统计规律。

3.假设空间
监督学习的目的在于学习一个从输入到输出的映射,用模型表示。模型属于输入空间到输出空间的映射的集合,就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。

4.问题的形式化
统计学习方法(第2版)李航著 学习笔记

无监督学习

无监督学习是指从无标注数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或潜在结构。
统计学习方法(第2版)李航著 学习笔记

强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,本质是学习最优的序贯决策。
统计学习方法(第2版)李航著 学习笔记
强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组组成。
有限状态的集合S
有限动作的集合A
状态转移概率函数P P(s’|s,a)=P(s(t+1)=s’|s(t)=s,a(t)=a)
奖励函数r r(s,a)=E(r(t+1)|s(t)=s,a(t)=a)
衰减系数γ γ从属于[0,1]

马尔可夫决策:下一个状态只依赖于前一个状态与动作,由P(s’|s,a)表示。下一个奖励依赖于前一个状态和动作,由r(s,a)表示。

半监督学习与主动学习

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
两者更接近于监督学习。

按模型分类

1.概率模型与非概率模型
2.线性模型与非线性模型
3.参数化模型与非参数化模型

按算法分类

在线学习:每次接受一个样本,进行预测,之后学习模型,并不断重复。
批量学习:批量学习一次接受所有数据,学习模型,之后进行预测。

按技巧分类

1.贝叶斯学习
在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率),并应用这个原理进行模型的估计,以及对数据的预测。
2.核方法
使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。

1.3统计学习方法三要素

方法=模型+策略+算法

模型

统计学习首先考虑的问题是学习什么样的模型。 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数为,用F表示

假设空间定义为决策函数的集合: F={f|Y=f(X)}
此时通常假设空间是由一个参数向量决定的函数族,
则假设空间可以表示为: F={f|Y=fθ(X),θ∈R的n次方}

假设空间定义为条件概率的集合: F={P|P(Y|X)}
此时通常假设空间是由一个参数向量决定的条件概率分布族,
则假设空间可以表示为: F={P|Pθ(Y|X),θ∈R的n次方}

策略

统计学习需要考虑按照什么样的准则学习或选择最优的模型,目标在于从假设空间中选取最优的模型。
引入损失函数与风险函数,前者度量模型一次预测的好坏,后者度量平均意义下模型的好坏。

损失函数和风险函数

常见的损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数

统计学习方法(第2版)李航著 学习笔记
统计学习方法(第2版)李航著 学习笔记
统计学习方法(第2版)李航著 学习笔记
给定一个训练数据集
T={(x1,y1),(x2,y2),…,(xN,yN)}T={(x1,y1),(x2,y2),…,(xN,yN)}
模型f(x)关于训练数据集的平均损失称为经验风险或经验损失Remp
Remp(f)=(1/N)∑L(yi,f(xi))
当样本容量N趋于无穷的时,经验风险趋于期望风险,自然有想法用经验风险估计期望风险。这涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

经验风险最小化与结构风险最小化

经验风险最小化:
经验风险最小化的策略认为:经验风险最小的模型就是最优的模型:
统计学习方法(第2版)李航著 学习笔记
问题:当样本容量很小时,学习的效果未必很好,会产生“过拟合”现象。

结构风险最小化:
是为了防止“过拟合” 而提出来的策略,等价于正则化。
统计学习方法(第2版)李航著 学习笔记
其中J(f)为模型复杂度,模型越复杂它就越大。
结构风险最小化的策略认为:结构风险最小的模型就是最优的模型:
统计学习方法(第2版)李航著 学习笔记

算法

算法是指学习模型中的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型,统计学习问题归结为最优化问题。

1.4模型评估与模型选择

1.4.1训练误差与测试误差

训练误差:
统计学习方法(第2版)李航著 学习笔记
测试误差:
统计学习方法(第2版)李航著 学习笔记