机器学习第九周(三)--多元高斯分布
多元高斯分布
以一个例子引入:
把这俩个特征单独拿出来都是符合高斯分布的,现有一个绿色的异常点,我们很难从x1和x2这俩个维度下去判别是否是异常点。
因为从左图看,正常数据是分布在椭圆范围内,我们使用的异常检测算法是从中心区域向外以正圆的形式扩展的,当我们碰到左上角的绿色点时,很有可能就处于正常数据等同的同心圆内,所以就不能判定异常。
所以我们需要改良版的异常检测算法—-多元高斯分布
多元高斯引入
在多元高斯分布中,不要把模型
多元高斯分布的参数包括向量
我们关键在于弄清综合后的模型
多元高斯图像
下面给出一些多元高斯模型的图像,有助理解。
矩阵
还可以通过改变非对角线元素进行建模,得到不同的高斯分布。
当对角线元素设为负数时,图像的方向会发生变化。
同理,改变
多元高斯分布解决异常检测
多元高斯分布定义
改变俩个参数
多元高斯分布检测异常
1、首先用训练集拟合模型
p(x)
2、对于新数据,计算p(x)
3、判定是否p(x) <ϵ
多元高斯模型和原始模型关系
原始模型是多个分模型相乘在一起的。原始模型可看作是高斯模型的一个特例。在协方差矩阵
原始模型和多元高斯模型的选择
原始模型 | 多元高斯模型 |
---|---|
手动选择新特征 | 自动捕捉不同变量之间的相关性 |
计算代价更小 | 计算更加复杂 |
m很小时也能work | 必须满足m>n,且 |
注意:
1、 m>n这个关系没有满足。
2、有冗余特征,比如出现有x1=x2,或者x3=x4+x5,这些都是冗余特征,因为x1和x3并没有包含额外的信息。