机器学习第九周(一)--异常检测
异常检测
异常检测问题引入
异常检测问题虽然主要用于非监督学习问题,但从某些角度看,又类似于一些监督学习问题。
以飞机引擎的QA测试为例,我们需要采集一些飞机引擎的特征,如
异常问题定义
假设我们有m个正常的样本数据
具体算法:给定的无标签的训练集,对数据集建立一个概率分布模型
异常检测应用
欺诈检测、计算机异常检测、、、
高斯分布
若x是一个随机变量,且x的概率服从高斯分布:其中均值为
如图,高斯曲线主要有俩个参数:
在统计学中,theta项中会采用m-1项,这叫无偏估计。机器学习中,习惯采用m,当数据集很大时,这区别很小,可以忽略不计。
异常检测算法
假设共有m个样本,每个样本有n维特征,对每个样本有高斯分布,总的模型由每个样本的高斯模型连乘得出;这里给出异常检测算法的一般步骤:
1、从样本中找出体现异常行为的特征
2、分别计算每个特征参数μ 和θ 。
3、给定新样本,计算出对应的p(x) ,判断p(x) <ϵ ?
异常检测例子
这里