统计学习方法—读书笔记(1)


本文主要参考书籍为《统计学习方法》(李辉)第二版

统计学习基本概念与分类

统计学习由监督学习,非监督学习,半监督学习和强化学习等组成。
统计学习的主要特点:

  1. 统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
  2. 统计学习以数据为研究对象,是数据驱动的学科;
  3. 统计学习的目的是对数据进行预测与分析
  4. 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
  5. 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论.

统计学习方法的三要素:模型(model),策略(strategy)和算法(algoxitinm).

实现统计学习方法的步骤:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析.

监督学习

监督学习:学习一个模型,是模型能够对于任意给定的输入,对其相应的输出作出良好的预测。
输入空间和输出空间:输入与输出所有可能取值的集合,欧氏空间。

输入实例x的特征向量记作: x=(x(1),x(2)…x(n))T

训练集:T={(x1​,y1​),(x2​,y2​),…,(xn​,yn​)},为标注数据(变量序列的形式)

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P (X,Y),P(X,Y)为分布函数或分布密度函数。对于学习系统来说,联合概率分布是未知的,训练数据和测试数据被看作是依联合概率分布P(X,Y)独立 同分布产生的。
回归问题:输入变量与输出变量均为连续变量的预测问题;
分类问题:输出变量为有限个离散变量的预测问题;
标注问题:输入变量与输出变量均为变量序列的预侧问题。

监督学习的模型:统计学习方法—读书笔记(1)

无监督学习

相比较监督学习,无监督学习从利用无标注数据(自然得到的数据)学习预测模型的机器学习问题。
输入空间和输出空间:输入与输出所有可能取值的集合,欧氏空间。
输出是对输入的分析结果,由输入的类别,转换或概率表示,模型可以实现聚类、降维、概率估计。
训练集 T={x1​,x2​,…,xn​}
无监督学习的模型:
统计学习方法—读书笔记(1)

强化学习

强化学习(学习最优的序贯决策):智能系统在于环境的连续互动中学习最优行为策略的机器学习问题。
假设系统与环境的互动基于马尔可夫决策过程,智能系统观测的数据序列是由环境互动得到的。
统计学习方法—读书笔记(1)强化学习的马尔可夫过程由五元素组成。

  1. 有限状态集合S
  2. 有限动作集合A
  3. 状态转移概率函数P(s’|s,a)=P(s(t+1)=s’|s(t)=s,a(t)=a)
  4. 奖励函数r:r(s,a)=E(r(t+1)|s(t)=s,a(t)=a)
  5. 衰减系数γ:0到1闭区间

马尔可夫性:下一个状态的取值只和前一个状态产生依赖,不和更早的状态产生联系,由P(s’|s,a)表示。下一个奖励依赖于前一个状态和动作,由奖励函数r(s,a)表示。
策略π定义为给定状态下动作函数a=f(s)或者条件概率分布P(a|s)
状态值函数vπ(s):也就是已知当前状态s,按照某种策略行动产生的长期回报期望
统计学习方法—读书笔记(1)状态-行动值函数qπ(s,a):也就是已知当前状态s和行动a,按照某种策略行动产生的长期回报期望
统计学习方法—读书笔记(1)

按算法分

在线学习:每次接受一个样本,进行预测,学习模型,不断重复这个过程。
批量学习:批量学习一次接受所有数据,学习模型,之后进行预测。

按技巧分

贝叶斯学习(待补充)

在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率),并运用这个原理进行贝叶斯定理,以及对数据的预测。

核方法(待补充)

使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。

统计学习方法三要素

方法=模型+策略+算法方法

模型

条件概率分布或者决策函数。
模型的假设空间包含所有可能的条件概率分布或者决策函数。
假设空间可以定义为决策函数的集合,条件概率的集合;
统计学习方法—读书笔记(1)
统计学习方法—读书笔记(1)

策略

损失函数: 用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。
损失函数是 f (X)和Y的非负实值函数,记作L(Y, f (X))
常用损失函数:

  1. 0-1损失函数
    统计学习方法—读书笔记(1)
  2. 平方损失函数
    统计学习方法—读书笔记(1)
  3. 绝对损失函数
    统计学习方法—读书笔记(1)
  4. 对数损失函数或对数似然损失函数
    统计学习方法—读书笔记(1)

损失函数的期望
统计学习方法—读书笔记(1)
这是理论上模型f (X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或期望损失。学习的日标就是选择期望风险最小的模型。

模型f(x)关于训练数据集的平均损失称为经验风险或经验损失:
统计学习方法—读书笔记(1)

期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正.这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化.

经验风险最小化,即求解最优化问题:
统计学习方法—读书笔记(1)
当样本容量足够大时,经验风险最小化能保证有很好的学习效果。

结构风险最小化是为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项或罚项:
统计学习方法—读书笔记(1)
其中J (f)为模型的复杂度,是定义在假设空间下上的泛函。
结构风险小需要经验风险与模型复杂度同时小。
结构风险最小化策略为:
统计学习方法—读书笔记(1)

算法:

学习模型的具体计算方法。
统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。