机器学习之白板推到系列笔记2---------高斯分布
1 高斯分布
线性高斯模型
例如:卡尔曼滤波;PCA降维
2 定义变量
X:数据。N个样本,每个样本P维
xi独立同分布(iid),都属于高斯分布
3 一维高斯分布
3.1 概率密度函数公式如下
3.2 概率密度函数图示如下
3.3 对均值和方差的最大后验概率估计
对均值和方差的最大后验概率估计的具体过程
为什么是有偏估计
所以,估计出来的高斯分布的误差比实际的误差要小
真实估计的是x到x均值的方差,而不是x到miu的方差
4 高维高斯分布
概率密度函数如下:
每个样本x为随机向量p维
miu为p维向量
sigma 为矩阵,一般为半正定的。这里我们认为他是个正定的,pxp维的
指数上的部分: 1p pp p*1最终会得到一个数字,我们可以写出来这个数字表示,x与miu之间的马氏距离
当sigma 为单位矩阵时,马氏距离等于欧氏距离
马氏距离的表示
这里yi代表x-miu在ui方向上的投影
当高维时,每一维都是一个投影。马氏距离为其和
考虑一个二维的情况,假设我们给定一个x,那么马氏距离其实是给定的,最终是一个椭圆(如果特征值大小不一的话,特征值一样就是一个圆)。我们就可以看到每个分量y都是一个投影分量。那么变化x的时候,我们会得到不一样大小的椭圆
5 高斯分布的局限性
1 方差矩阵的维度
为p*p维,对称矩阵,则一共有[(p2-p)/2] + p=O(p2),高维时计算复杂
当为对角阵时,yi= xI. 则yi的方向与X的原方向一致。的椭圆
当为对角阵时且对角线上元素相等时,为圆,各向同性。如下图所示
因子分析中->假设隐变量z为对角矩阵
P-PCA -> z为个性同性
2 某些情况下,概率密度函数用一个高斯函数可能不能表达
因此GMM 混合高斯模型。多个高斯模型混合表达
6 已知高维高斯分布,求其边缘概率密度和联合概率率条件概率密度
1 配方法—PRML
2 构造性证明。如下:
7 已知边缘概率密度和条件概率,求联合概率分布
8 杰森不等式
1 假设f(x)为凸函数。则E[f(x)]>=f(E[x]).函数值大于切线上的值
2 任意两点之间的连线大于函数值
参考:
白板推导系列