吴恩达机器学习--应用高斯分布开发异常检测算法
异常检测算法
- 对于给定的数据集 x(1),x(2),...,x(m) ,有m个样本,每个样本有n个特征,建立概率模型 p(x),找出哪些特征出现的概率高,哪些特征出现的概率低。
- p(x)=p(x_1)*p(x_2)*p(x_3)......*p(x_n)
- p(x)=第一个特征X_1的概率*第二个特征X_2的概率*第三个特征X_3的概率......*第n个特征X_n的概率
- 假设:每一个特征x服从正态分布 x~N(μ,σ2)
- 则:
,
,
......
- 即:
- 我们要针对每一个特征计算 μ 和 σ2 的估计值。
-
- 注:j表示第j个特征,i表示第i个样本
- 一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):
- 当 p(x)<ε 时,为异常。
下图是一个由两个特征的训练集,以及特征的分布情况:
下面的三维图表表示的是密度估计函数,z 轴为根据两个特征的值所估计 p(x)值:
我们选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,否则则为异常。
算法实现流程
异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集
具体的评价方法如下:
1. 根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
2. 对交叉检验集,我们尝试使用不同的 ε 值作为阀值,并预测数据是否异常,根据 F1 值或者查准率与查全率的比例来选择 ε
3. 选出 ε 后,针对测试集进行预测,计算异常检验系统的 F1 值,或者查准率与查全率之比
监督学习与异常检测的比较
特征选择
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:x = log(x+c),其中 c 为非负常数; 或者 x=xc,c 为 0-1 之间的一个分数,等方法。
误差分析
一个常见的问题是一些异常的数据可能也会有较高的 p(x)值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用 CPU 负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。