李航统计学习方法学习笔记(一)
1.1 实现统计学习方法(机器学习)的步骤如下:
(1)得到一个有限的训练数据集合
(2)确定包含所有可能的模型的假设空间,即学习模型的集合
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法,即学习的算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析
1.2 统计学习(机器学习)的分类
(一)基本分类
监督学习
监督学习的目的在于学习一个输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。
无监督学习
无监督学习是指从无标注数据中学习预测模型的的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计学习规律或潜在结构。
(二)按模型种类
(1)概率模型与非概率模型
监督学习中的概率模型取条件概率分布形式P(y|x),非概率模型取函数形式y=f(x),其中x是输入,y是输出
监督学习中的概率模型是生成模型,非概率模型是判别模型
概率模型有:决策树,朴素贝叶斯,隐马尔科夫模型,条件随机场,概率潜在语义分析,潜在狄利克雷分配,高斯混合模型。
非概率模型有:感知机,支持向量机,K近邻,AdaBoost,K均值,潜在语义分析,以及神经网络是非概率模型。
概率模型的代表是概率图模型,无论模型多么复杂,都有可以用最基本的加法规则和乘法规则进行概率推理
(2)线性模型linear model和非线性模型non-linear model
如果y=f(x)是线性函数,则称模型是线性模型,否则则称模型是非线性模型
线性模型:感知机,线性支持向量机,K近邻,K均值,潜在语义分析
非线性模型:核函数支持向量机,Adaboost,神经网络
深度学习(deep learning)实际是复杂神经网络的学习,也就是复杂的非线性模型的学习。
(3)参数化模型(parametric model)和非参数化模型(non-parametric model)
参数化模型假设模型参数的维度固定,模型可以由有限参数完全刻画。
非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。
参数化模型:感知机,朴素贝叶斯,逻辑斯蒂回归,K均值,高斯混合模型
非参数化模型:决策树,支持向量机,AdaBoost,K近邻,潜在语义分析,概率潜在语义分析,潜在狄利克雷分配
非参数化模型在复杂问题中更有效
(三)按算法分类
在线学习(online learning):每次接受一个样本,进行预测,之后学习模型,并不断重复该操作进行机器学习
批量学习(batch learning):批量学习一此接受所有数据,学习模型,之后进行预测
(四)按技巧分类
贝叶斯学习(Bayesian learning),又称贝叶斯推理,其主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算给定数据条件下模型的条件概率,即后验概率,并应用这个原理对进行模型的估计 ,以及对数据的预测。
朴素贝叶斯、狄利克雷分配属于贝叶斯学习
核方法(Kernel method)是使用核函数表示和学习非线性模型的一种机器学习方法。
核PCA,核K均值属于核方法
1.3 统计学习的方法的三要素
方法=模型+策略+算法
(一)模型(假设空间):找到一个备选模型的集合
假设空间可以用两种形式表示:
1.决策函数的集合
2.条件概率的集合
F通常是由一个参数向量决定的条件概率分布族,参数向量theta取值于n维欧式空间R^n,称为参数空间
(二)策略:用什么样的准则从备选模型中学习或选择
1.损失函数:策略就体现在损失函数上,损失函数表示的是对于每一个实例,预测值和真实值之间差别的惩罚
0-1损失函数:常用于分类问题中,f(x)为预测值=0或1,观测值Y也是0或1,预测值和观测值不相等,认为有损失,损失值记为1相等,则没损失。
平方损失函数:常用于回归问题中
绝对损失:常用于回归问题中
对数似然损失:前三个都是针对决策函数的损失函数,而最后一个是针对条件概率函数的损失函数,P(Y|X)是似然函数
2.经验风险最小化与结构风险最小化
在假设空间,损失函数以及训练数据集都确定的情况下,经验风险函数式就可以确定。
经验风险最小化(empirical risk minimization,ERM)的策略认为,经验风险最小的模型是最优的模型。
但这个策略适合于样本容量比较大的情况,如果样本容量少,利用这个策略容易出现过拟合。
结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略。结构风险最小化等于正则化(regularization)。结构风险是在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间,损失函数以及训练数据集确定的情况下,结构风险的定义是:
J(f)表示f这个模型的复杂度
(三)算法
算法是指学习模型的具体计算方法。