使用Excel分析数据学习笔记之 二分类与混淆矩阵

混淆矩阵的构成:

使用Excel分析数据学习笔记之 二分类与混淆矩阵

  1. Condition 实际情况 (图中a、b)
  • +: 实际情况为正的概率,condition incidence
  • -:实际情况为负的概率
  • 边际概率,概率和为1
  1. Classification 预判 (图中c、d)
  • classification method used to classify an item as positive or negative
  • 在信息不完全的情况下做出预先判断,存在错误
  • probability of positive classification也叫classification incidence to test incidence.
  • negative: probability of negative classification
  • 边际概率,概率和为1
  1. 联合概率 (图中e、f、g、h)
  • 判断方法:
    1. 预判(Positive/Negative)为第二个字母

    2. 第一个字母T/F: 你的预判与实际情况是否一致?一致则为True,不一致为False

      e: True Positive (TP), 预判为positive, 实际情况为+,两者相符为true
      f:False Negative(FN)
      g: False Positive(FP)
      h: True Negative(TN)

  • 同样的,这四个联合概率的概率和为1
    使用Excel分析数据学习笔记之 二分类与混淆矩阵

e.g.1:Bombers and seagulls

背景

上世纪四十年代雷达的发明问世之初,技术还不是很成熟,只能得到模糊的图像反馈。而在英国与德国的闪电战中,德国轰炸机使英国人伤亡惨重。英军收到的模糊雷达图像可能是德军轰炸机,也可能是一群海鸥。如何根据模糊的图像反馈判断是否迎战?这个问题可以很好的被混淆矩阵和ROC曲线解决。

混淆矩阵
  • Condition
    • +: 轰炸机
    • -: 海鸥
  • Classification
    • positive: 派出战机,正面迎战
    • negative:原地不动
如何根据混淆矩阵得到ROC曲线?
  1. 基于雷达图像上的最大阴影面积赋值

  2. 追踪此次图像的最终实际结果

  3. 将得分降序排列使用Excel分析数据学习笔记之 二分类与混淆矩阵

  4. 设定不同的阈值可以得到不同的预判结果总数(positive/negatice classification),从而不同的FP%,TP%。
    使用Excel分析数据学习笔记之 二分类与混淆矩阵** 红色得分为轰炸机(3个),黑色得分为海鸥(17个)
    ** TP%= TP事件总数/+事件总数;FP%=FP事件总数/-事件总数

    设阈值为80:

    • 即得分>=80判定为positive classification, <80判定为negative classification
    • 得到混淆矩阵:
      使用Excel分析数据学习笔记之 二分类与混淆矩阵
    • FP% = 4/17, TP% = 2/3

    设阈值为70:

    • 即得分>=70判定为positive classification, <80判定为negative classification
    • 得到混淆矩阵:
      使用Excel分析数据学习笔记之 二分类与混淆矩阵
    • FP% = 7/17, TP% = 3/3 = 1

5.特定阈值下的(FP%,TP%)为ROC图像上一点, 不断改变阈值得到整个ROC图像

**⚠️: 这个例子中FN(德军派出轰炸机轰炸而英方未做出任何抵抗)的相对成本远远要比FP(派出战机迎战却发现只是一群海鸥)来得大,因此我们尽可能的要缩小FN的数值,即设定较低的阈值。