使用Excel分析数据学习笔记之 二分类与混淆矩阵
混淆矩阵的构成:
- Condition 实际情况 (图中a、b)
- +: 实际情况为正的概率,condition incidence
- -:实际情况为负的概率
- 边际概率,概率和为1
- Classification 预判 (图中c、d)
- classification method used to classify an item as positive or negative
- 在信息不完全的情况下做出预先判断,存在错误
- probability of positive classification也叫classification incidence to test incidence.
- negative: probability of negative classification
- 边际概率,概率和为1
- 联合概率 (图中e、f、g、h)
- 判断方法:
-
预判(Positive/Negative)为第二个字母
-
第一个字母T/F: 你的预判与实际情况是否一致?一致则为True,不一致为False
e: True Positive (TP), 预判为positive, 实际情况为+,两者相符为true
f:False Negative(FN)
g: False Positive(FP)
h: True Negative(TN)
-
- 同样的,这四个联合概率的概率和为1
e.g.1:Bombers and seagulls
背景
上世纪四十年代雷达的发明问世之初,技术还不是很成熟,只能得到模糊的图像反馈。而在英国与德国的闪电战中,德国轰炸机使英国人伤亡惨重。英军收到的模糊雷达图像可能是德军轰炸机,也可能是一群海鸥。如何根据模糊的图像反馈判断是否迎战?这个问题可以很好的被混淆矩阵和ROC曲线解决。
混淆矩阵
- Condition
- +: 轰炸机
- -: 海鸥
- Classification
- positive: 派出战机,正面迎战
- negative:原地不动
如何根据混淆矩阵得到ROC曲线?
-
基于雷达图像上的最大阴影面积赋值
-
追踪此次图像的最终实际结果
-
将得分降序排列
-
设定不同的阈值可以得到不同的预判结果总数(positive/negatice classification),从而不同的FP%,TP%。
** 红色得分为轰炸机(3个),黑色得分为海鸥(17个)
** TP%= TP事件总数/+事件总数;FP%=FP事件总数/-事件总数设阈值为80:
- 即得分>=80判定为positive classification, <80判定为negative classification
- 得到混淆矩阵:
- FP% = 4/17, TP% = 2/3
设阈值为70:
- 即得分>=70判定为positive classification, <80判定为negative classification
- 得到混淆矩阵:
- FP% = 7/17, TP% = 3/3 = 1
5.特定阈值下的(FP%,TP%)为ROC图像上一点, 不断改变阈值得到整个ROC图像
**⚠️: 这个例子中FN(德军派出轰炸机轰炸而英方未做出任何抵抗)的相对成本远远要比FP(派出战机迎战却发现只是一群海鸥)来得大,因此我们尽可能的要缩小FN的数值,即设定较低的阈值。