Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

异常检测：
存在样本集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ ，通常假设这 $m$ 个样本都是正常的或者不异常的，对训练集数据建一个模型 $p (x)$ ，即对 $x$ 的分布概率建模，当建立完概率模型后，对新的样本 $x_{t e s t}$ 来说，如果 $p (x_{t e s t}) < ε$ ，标记为不正常，否则，标记为正常。
异常检测最常见的应用：

欺诈检测
$x^{(i)}$ 为用户活动的特征值；
利用数据建立模型 $p (x)$ ，用来表示用户做出各种行为的可能性，即对应特征变量出现的概率；
检测用户的 $p (x)$ 是否小于 $ε$ 来定义行为异常用户。
工业生产领域
数据中心的计算机监控

高斯分布(正态分布)：
设 $x \in R$ ，如果 $x$ 的概率分布服从高斯分布(均值为 $μ$ ，方差为 $σ^{2}$ )，则记做 $x \sim N (μ, σ^{2})$ ，高斯分布的概率密度公式：

p (x; μ, σ^{2}) = \frac{1}{\sqrt{2 π} σ} e x p (- \frac{(x - μ)^{2}}{2 σ^{2}})

该公式的图形表示如下图：
Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

μ

控制图中曲线的中心位置，

σ

控制该曲线的宽度。
不同

μ

与

σ

取值的概率密度曲线如下图所示：
Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

因为这是一个概率分布曲线，所以曲线下的面积积分一定为1。

参数估计：
假设有一个数据集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ ， $x^{(i)} \in R$ ，如下图：
Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】
猜测每个样本 $x^{(i)}$ 服从高斯分布 $N (μ, σ^{2})$
则

μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} σ^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)} - μ)^{2}

基于高斯分布的异常检测算法：
存在训练集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ ， $x^{(i)} \in R^{n}$
设 $x_{1} \sim N (μ_{1}, σ_{1}^{2}), x_{2} \sim N (μ_{2}, σ_{2}^{2}), x_{3} \sim N (μ_{3}, σ_{3}^{2}), \dots, x_{n} \sim N (μ_{n}, σ_{n}^{2})$
则模型 $P (x) = p (x_{1}; μ_{1}, σ_{1}^{2}) p (x_{2}; μ_{2}, σ_{2}^{2}) p (x_{3}; μ_{3}, σ_{3}^{2}) \dots p (x_{n}; μ_{n}, σ_{n}^{2}) = \prod_{j = 1}^{n} p (x_{j}; μ_{j}, σ_{j}^{2})$

异常检测算法步骤：

选择可以表征异常样本的特征值 $x_{i}$ ，得到样本集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ ；
拟合出参数 $μ_{1}, \dots, μ_{n}, σ_{1}^{2}, \dots, σ_{n}^{2}$
$μ_{j} = \frac{1}{m} \sum_{i = 1}^{m} x_{j}^{(i)} σ_{j}^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x_{j}^{(i)} - μ_{j})^{2}$
给出新样本 $x$ ，计算 $p (x)$ ：
$P (x) = \prod_{j = 1}^{n} p (x_{j}; μ_{j}, σ_{j}^{2}) = \prod_{j = 1}^{n} \frac{1}{\sqrt{2 π} σ_{j}} e x p (- \frac{(x_{j} - μ_{j})^{2}}{2 σ_{j}^{2}})$
如果 $P (x) < ε$ ，标注为异常。

当使用某个学习算法开发一个具体的机器学习应用时，常需要作出许多决定，如选择特征值等，如果找到某种评价算法的方式，直接返回一个数字来评价算法的好坏，那么做决定将会容易很多。
异常检测问题是一个非监督学习问题，使用无标签数据，但如果有一些带标签的数据可以指出异常/非异常样本，这就是可以评价异常检测算法的标准方法。

假设存在一些带标签数据(包含异常/非异常样本)，如果正常 $y = 0$ ，否则 $y = 1$ ；
训练集为无标签数据 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ (假设均为正常/非异常样本)
交叉验证集： ${(x_{c v}^{(1)}, y_{c v}^{(1)}), \dots, (x_{c v}^{(m_{c v})}, y_{c v}^{(m_{c v})})}$
测试集： ${(x_{t e s t}^{(1)}, y_{t e s t}^{(1)}), \dots, (x_{t e s t}^{(m_{t e s t})}, y_{t e s t}^{(m_{t e s t})})}$
交叉验证集和测试集中包含异常样本。

举例：以飞机引擎为例
有 $10000$ 个正常引擎， $20$ 个异常引擎
(注：根据经验，通常 $y = 1$ 的样本数为 $2 \sim 50$ 个， $y = 0$ 的样本很多)

一种典型的数据分类：
训练集： $6000$ 个正常引擎；
交叉验证集： $2000$ 个正常引擎( $y = 0$ )， $10$ 个异常引擎( $y = 1$ )；
测试集： $2000$ 个正常引擎( $y = 0$ )， $10$ 个异常引擎( $y = 1$ )；
正常引擎的划分比例为 $6 : 2 : 2$ ，异常引擎的划分比例为 $0 : 1 : 1$ 。

接下来：
在训练集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ 上拟合模型 $p (x)$
在交叉验证集或测试集样本 $x$ 上，预测：

y = {\begin{cases} 1, & 如 果 p (x) < ε (异 常) \\ 0, & 如 果 p (x) ⩾ ε (正 常) \end{cases}

因为该类样本比较偏斜，所以用到的评价度量指标为：

查准率/召回率
$F_{1} - s c o r e$

用交叉验证集选择参数 $ε$ ，尝试不同的 $ε$ 值，选出使 $F_{1} - s c o r e$ 最大的那个 $ε$ 。

异常检测 $V S$ 监督学习：

应用场景：

异常检测：正样本( $y = 1$ )的数量很少(通常为 $0 \sim 20$ )，负样本( $y = 0$ )的数量很多；
监督学习：正、负样本的数量都很多。

补充说明：

异常检测：存在多种不同的异常情况，对于任何学习算法，都很难从少量的正样本中学习到异常的全部情况，很多未知的异常无法从现有样本中学到；
监督学习：对算法来说，有充足的正样本来学习正样本的样子，未来的正样本类似于训练集中的样本。

应用举例：

异常检测：欺诈检测、工业生产、数据中心的计算机监控；
监督学习：垃圾邮件分类、天气预测、癌症分类。

异常检测算法的特征变量选择：
当应用异常检测时，对它的效率影响最大的因素之一是使用什么特征变量。
在使用异常检测算法之前，可以通过画出特征变量取值来看其是否服从高斯分布(注：虽然不是高斯分布，算法也可以正常运行)

$O c t a v e$ 中画直方图用 $h i s t ()$ 命令
如果数据不服从高斯分布，可以对数据进行一些转换，使其更像高斯分布。

例：
原特征变量分布如下图：
Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】
对其取 $l o g (x)$ 转换，特征分布如下：

常见的转换方式： $l o g (x)$ 、 $l o g (x + 1)$ 、 $\sqrt{x}$ 、 $\sqrt[3]{x}$ 等

如何得到异常检测算法的特征变量？
先完整的训练出一个学习算法，然后在一组交叉验证集上运行算法，找出那些预测出错的样本，再看看能否找到一些其他的特征变量，来帮助学习算法在那些交叉验证集判断出错的样本中表现得更好。

为异常检测算法选择特征变量时，选取那些通常取值不会特别大也不会特别小的特征变量。

多元高斯分布
存在特征 $x \in R^{n}$ ，不要把 $p (x_{1}), p (x_{2}) \dots$ 分开，而是建立一个 $p (x)$ 整体的模型。

多元高斯分布的参数包括 $μ \in R^{n}$ ， $Σ \in R^{n \times n}$ (协方差矩阵)
概率密度公式为：

p (x; μ, Σ) = \frac{1}{(2 π)^{\frac{n}{2}} | Σ |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))

| Σ |

为

Σ

的行列式，

O c t a v e

中用

d e t (S i g m a)

实现。

不同 $μ$ 与 $Σ$ 取值的概率密度曲线如下：
Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

多元高斯分布的参数估计：
训练集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$ ， $x^{(i)} \in R^{n}$

μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} Σ = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T}

基于多元高斯分布的异常检测算法：

用训练集拟合模型 $p (x)$
$μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} Σ = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T}$
对于一个新样本，计算
$p (x) = \frac{1}{(2 π)^{\frac{n}{2}} | Σ |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$
如果 $p (x) < ε$ ，标记为异常。

原始模型： $P (x) = p (x_{1}; μ_{1}, σ_{1}^{2}) p (x_{2}; μ_{2}, σ_{2}^{2}) \dots p (x_{n}; μ_{n}, σ_{n}^{2})$
对应一种多元高斯分布模型： $p (x; μ, Σ) = \frac{1}{(2 π)^{\frac{n}{2}} | Σ |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$
当 $Σ = [\begin{matrix} σ_{1}^{2} \\ σ_{2}^{2} \\ ⋱ \\ σ_{n}^{2} \end{matrix}]$ 时。

原始模型 $V S$ 多元高斯分布：
特征关联：

原始模型：手动新建一个特征值来捕捉 $x_{1}, x_{2}$ 不正常组合值的异常情况；
多元高斯分布：自动捕捉不同特征量之间的相关性。

运算量：

原始模型：运算量小，适用于特征变量很多( $n$ 很大)的情况；
多元高斯分布：运算量大。

适用情况：

原始模型：当训练集很小( $m$ 很小)时也适用；
多元高斯分布： $m$ 必须大于 $n$ (最好 $m ⩾ 10 n$ )，即样本数量一定要大于特征变量的数量。

当使用多元高斯分布时，如果发现 $Σ$ 是不可逆的，通常有两种情况：

不满足 $m > n$ 的条件；
有冗余特征变量。

Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

相关推荐