异常侦测anomaly detection
2019spring李宏毅老师的机器学习课程 http://speech.ee.ntu.edu.tw/~tlkagk/courses.html
学习进度:
2019.3.29 :1、anomaly detection(异常侦测系统)的创建过程:
2019.3.30:待补充
2019.4.2 :μ、∑的计算方法
1、anomaly detection(异常侦测系统)的创建过程:
- output最高的分数是信心分;
- 判断distribution平不平均,算熵(entropy)比方差更合适;
如何建立一个anomaly detection ?
有一组训练集(Training Set)→Train a classifier →obtain confidence score c(x)
→根据信心分,打造异常侦测系统:f(x)
→Dev Set(这里要有正常数据,和不正常数据),用Dev Set 来决定 λ 的值
→ 系统上线
- 不能拿正确率来衡量Anomaly Detection 的好坏。(现实中如大气侦测等是很少有不正常数据的,可能几千万都是好数据)
2、评价Anomaly Detection系统好坏的方法:
detected&Normal (右上角)这一格指 “正常的内容被判为异常”;→false
NotDet&Anomaly(左下角)这一格指 “异常的内容未被侦测出来”→ missing
最终,用cost table(扣分制)评价系统好坏;不同的情景不同任务有不同的cost table
(不同情境:检测图片是否匹配,往往采用上面的cost table A,即一个missing扣一分,一个false扣100分。
但如果是用于癌症的检测,会采用cost table B,missing的扣分比重需要很大,一个missing扣100分;
因为得了癌症但是未被检测出来的代价很大。但没得癌症被误诊为患病的代价没那么大)
μ、
的计算方法
- 上图为最终的f(x)分布,其中λ为某一条等高线,等高线内的为normal,等高线外为anomaly
![]()
- 在上面的例子中,只考虑了两个指标“无政府发言”、“说垃圾话”;事实上,会有更多指标,最终的模型不仅是二维的。
Attack and Defense
无目标攻击:使得到的答案离正确目标越远越好;
有目标攻击,使答案离正确答案越远且 离错误答案越近。
限制:x' 要越接近x^0越好
L有两种取值方式:L2-norm 、 L-infinity
计算公式见上图左侧;
右下角为举例,计算得到 左边的4个小色块和右上的4个小色块 的 L2-norm 与
左边的4个小色块和右下的4个小色块 的 L2-norm 相等。
但 左边的4个小色块和右上的4个小色块 的 L-infinity 明显比
左边的4个小色块和右下的4个小色块 的 L-infinity 要小。(可见L-infinity更符合人眼直观的判断)。
但,实际任务需求中,要根据需求使用不同的L取值方法。
今天看到一句话:盲目追逐热点容易误入陷阱,要巩固基础、寻找擅长领域和机器学习交叉点。