【统计学习方法】第一章

1.1 统计学习
(1)统计学习分为监督学习、半监督学习、无监督学习和强化学习。*
监督学习的任务是学习一个模型,使得模型能够对任意给定的输入,对其输出做一个好的预测,监督学习的应用最为广泛

(2)输入空间、输出空间、特征空间*
在监督学习中,输入与输出的所有可能取值的集合分别称为输入空间和输出空间。

输入空间与输出空间可能相同,也可能不同,通常输入空间小于输出空间。

每个具体的输入是一个实例,通常由特征向量表示,所有特征向量的空间称为特征空间。

输入空间和特征空间如果相同,不进行区分
如果不同,试讲实例由输入空间映射到特征空间

模型都是定义在特征空间上的

(3)问题分类
输入与输出均为连续变量的问题是回归问题
输出是有限个离散变量的预测问题是分类问题
输入与输出均为变量序列的问题是标注问题

(4)假设空间
监督学习的目的是学习一个由输入到输出的映射,这个映射就由模型来表示
模型可以使概率模型或者是非概率模型,分别表示为条件概率分布【统计学习方法】第一章

监督学习中的一些基本概念:

(1)输入空间,特征空间和输出空间

输入空间:输入变量xi(x1,x2,…)的所有i对应的x的取值构建起来的集合叫做输入空间(从形式上来看输入空间是矩阵形式的)

输出空间:输出变量yi的所有可能的情况构建起来的集合就叫做输出空间(从形式上来看输出空间应该是列向量形式的)

输入空间和输出空间可以在同一个空间中,也可以在不同的空间中,通常输出空间要比输入空间来的小(就是输出的情况比输入的情况来的少)

特征空间:输入变量xi(x1,x2,…)中的各个x1,x2,…来表征xi,这些x1,x2,…就是输入变量xi对应的属性/特征,这些不同的属性/特征构建起来的空间就是特征空间(从形式上来看特征空间是列向量形式的)

输入空间就是在特征空间中的不同取值的集合,列向量(特征空间)的转置的列向量组合就是输入空间的矩阵

一些约定:

1.输入,输出变量的所有情况用大写X,Y表示;

2.输入,输出变量的某一种取值状况用小写x,y表示;

3.变量可以是标量(如输出变量y)也可以是向量(如输入向量x)

4.xi表示的是输入空间中的第i个输入变量,但是这个输入变量是一个具有多属性的向量;而x(i)表示的是输入空间中的第i个属性/特征,就是输入空间的某个属性列

监督学习的一些细分:

输入变量x和输出变量y都是连续的模型叫做回归分析

输入变量为连续的,输出变量时离散的情形叫做分类问题

输入变量和输出变量都为离散的叫做标注

1.什么是概率分布?什么是联合概率分布?

概率分布p(y|x):指的是练习样本数据中的一条数据(一个样本点)的模型估计和实际值之间的取值相等的概率(模型在这个样本点之上的准确度)

概率分布指的就是在一定条件下面出现的不同情况的概率的情况

形式有如p(y|x)表示的是在x的情形下发生y的概率。

其中的y|x指的是在随机变量x(输入的一个数据)的情形下面发生y的概率

联合概率分布P(Y|X):指的是练习样本数据中的所有数据根据模型计算的估计值和实际值全部相等的概率(练习样本数据集中所有数据输入后的估计值和实际值一样的概率当然就是所有的单条数据经过模型估计后的估计值和实际值相等的概率的乘积,当然是将单个的概率分布做连乘处理,就是采用似然函数来估计总体的情况)(模型在练习数据集上面的准确度)

联合概率分布指的是在X的条件下面事件Y发生的概率。

其中的X指的是随机变量x在输入空间中的集合,就是在这些输入空间中的随机变量共同输入的情况下事件Y发生的概率。

似然估计:(总体概率的估计(联合概率分布),就是将单个个体的概率的估计(概率分布)做连乘处理)

由上面可知联合概率分布(总体)可以采用似然估计来将概率分布(个体)相乘的前提就是各个个体服从独立同分布(各个个体是相互独立的而且这些个体的概率分布是相同的)

假设空间是带参的模型,是对练习数据集上面的输入到输出的映射关系,假设空间的确定意味着模型范围的确定,就是确定了带参的函数,接下去的任务就是计算出最优的模型

假设空间中带参的模型函数的建立

这个模型的对象是练习数据集中的样本点。因此这个带参的函数模型如果是概率的话就是概率分布了

学习的三要素:模型,策略,算法

模型就是选取合适的带参的函数(假设空间),有可能是条件概率分布函数p(y|x)也有可能是决策函数

(1)由决策函数定义的模型叫做非概率模型

(2)由条件概率分布函数定义的模型叫做概率模型。

策略就是采取何种约束(规则)来计算带参的函数(模型)(代价函数,规则化项来制约,代价函数和规则化项的选取的不同就是策略的不同)(对整体模型的准确性的一种约束,最小二乘法,联合概率分布)

非概率模型的损失函数一般是平方损失函数(估计值和实际值之间的差距的平方):对应于损失最小

概率模型的损失函数一般考虑用联合概率分布(对条件概率分布函数来构造似然函数):对应于联合概率分布最大

算法就是对策略产生的代价函数和正则项的综合函数进行最值的计算来使得这个模型的参数最优化(使得代价最小或者是模型的估计值和实际值相等的概率最大),用梯度下降法或者正规矩阵的方法来计算得到最佳参数。