统计学习方法-理论知识学习笔记
目录
前言:
大致看完了吴恩达老师的视频后,过一遍统计学习方法,对于整理思路的帮助极大。
1 统计学习的方法概论
1.1 统计学习
1.1.1 统计学习特点
统计学习也称为统计机器学习(statistical machiine learning)
统计学习的主要特点:
(1)统计学习以计算机及网络为平台,是建立在计算机 及网络上的;
(2)统计学习以数据为研究对象,是数据驱动的学科;
(3)统计学习的目 的是对数据进行预测与分析;
(4)统计学习以方法为中心,统计学习方法构建模型并 应用模型进行预测与分析;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系 与方法论
1.1.2 统计学习的对象
用随机变量描述数据中的特征,用概率分布描述数据中的统计规律。
数据分为连续变量和离散变量两种类型
1.1.3 统计学习的目的
统计学习用于对数据进行预测与分析。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同 时也要考虑尽可能地提高学习效率。
1.1.4 统计学习的方法
分为
- 监督学习(supervised learing)、
- 非监督学习(unsupervised learning)、
- 半监督学习(semi-supervised learning)
- 强化学习(reinforcement learning)
用于学习的训练数据(ttaining data)
假设要学习的模型属于某 个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现
统 计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)
实现统计学习方法的步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
1.1.5 统计学习的研究
统计学习研究一般包括
- 统计学习方法
- 统计学习理论
- 统计学习应用
1.1.6 统计学习的重要性
- 处理海量数据的有效方法
- 计算机智能化的有效手段
- 计算机科学发展的一个重要组成部分
1.2 监督学习
1.2.1 基本概念
输入空间、特征空间和输出空间-输入输出
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示
模型实际上都是定义在特征上的,输出变量索取的值用小写字母表示
输入实例x的特征向量记做:
训练数据有输入(或特征向量)与输出对组成,输入输出对有为样本。
人们根据输入输出变量的不同类型,对预测任务给予不同的名称:
- 输入变量与输出变量均为连续变量的预测问题称为回归问题;
- 输出变量为有限个离散变量的预测问题称为分类问题;
- 输入变量与输出变量均为变量序列的预测问题称为标注问题
联合概率分布-概率论的用到再补
假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着 学习的范围的确定。
1.2.2 问题的形式化
监督学习:
其实监督学习的讲解可以参考之前学习吴恩达机器学习的时候做的笔记
https://blog.****.net/qq_37457202/article/details/106848778
1.3 统计学习三要素
1.3.1 模型
笔记与书本一致,决策函数表示的模型为非概率模型,有条件概率表示的模型为概率模型
1.3.2 策略
- 损失函数度量模型一次预测的好坏
- 风险函数度量平均意义下模型预测的好坏。
损失函数
损失函数(loss function)或代价函数(cost function)来度量预测错误的程度:
损失函数的期望
理论上模型了f(X)关于联合分布p(x,v)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。
经济风险最小化和结构风险最小化
看书标记对应去学,这部分需要好好的理解,公式较多,不好压缩。
1.3.3 算法
具体的计算方法
1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
直接上代码去实现就可以了,这部分知识也是学过的
https://blog.****.net/breeze_blows/article/details/85473804
1.5 正则化与交叉验证
1.5.1 正则化
经验风险上加一个正则化项(regularizer)或罚项(penalty term)。
1.5.2 交叉验证
在样本数据充足的情况:
随机将数据切分为三部分别为训练集(training set)、验证集(validation set)和测试集(test set)
样本不充足的情况:
1.简单交叉验证
简单交叉验证方法是:首先随机地将已给数据分为两部分,一部分作为训练集, 另一部分作为测试集(例如,70%的数据为训练集,30%的数据为测试集);然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试 集上评价各个模型的测试误差,选出测试误差最小的模型。
2.S折交叉验证
应用最多的是S折交叉验证(S-fold cross validation),方法如下:首先随机地将 已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练 模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出 S次评测中平均测试误差最小的模型。
3.留一交叉验证
S折交叉验证的特殊情形是S = N,称为留一交叉验证(leave-one-out cross validation),往往在数据缺乏的情况下使用。这里,N是给定数据集的容量。
1.6泛化能力
我。。。泛化误差上界没能看懂,希望有大佬推推好的文章或者视频
1.7 生成模型与判别模型
典型的生成模型有朴素贝叶斯法和隐马尔科夫模型
1.8 监督学习应用
分为三方面:分类问题、标记问题和回归问题
1.8.1 分类问题
分类是监督学习的一个核心问题。
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)
对于新的输入进行输出预测,称为分类(classification)。可能的输出称为类别(class)
分类的类别为多个时,称为多类问题。本书主要讨论二类分类问题。
分类问题包括学习和分类两个过程
评价分类器性能的指标一般是分类准确率(accuracy)
二类分类问题常用的评价指标是精确率(precision)与召回率(recall).
通常以关注的类为正类,其他类为负类:
1.8.2 标注问题
标注(tagging)也是一个监督学习问题。标记问题有时复杂的结构预测问题的简单形式,是分类问题的一个扩展
标注常用的统计学习方法有:隐马尔科夫模型、条件随机场
常应用于信息抽取、自然语言处理
1.8.3 回归问题
回归问题分为学习和预测两个过程
回归问题
按照输入变量的个数,分为一元回归和多元回归;
按照输入变量和输出变量之间的关系的类型既模型的类型分为线性和非线性问题(通过图更好理解)
i最常用的损失函数是平方损失函数,回归问题可以由最小二乘法(least squares)求解
未完待续