线性判别函数

性能度量

线性判别函数

错误率和精度

  • 错误率:分错样本占样本总数的比例
  • 精度:分对样本占样本总数的比率

查准率和查全率

线性判别函数

P-R曲线

线性判别函数

理解P-R(查准率-查全率)

如果我们想要根据这个概率判断用户好坏的话,就必须定义一个阈值。超过阈值就判定为A,否则,判定为B。为了得到这个最合适、使结果最准确的阈值,我们需要遍历所有的阈值,而每个阈值对应一查准率和查全率,因此,得到了P-R曲线。
什么是最好的阈值点?我们期望查全率和查准率都较高,但二者矛盾,无法达到两全其美,因此,根据特定情况,偏向一些查全率或偏向查准率。

F1 度量

查全率和查准率的一个平衡点。
线性判别函数

ROC图

TPR(真正率) = TP/(TP+FN)

FPR(假正率) =FP/(FP+TN) 有多少负样本被错误地预测为正样本

线性判别函数

直接看矩阵好记忆。
TPR和FPR分别是基于实际表现1和0出发的,也就是说它们分别在实际的正样本和负样本中来观察相关概率问题
所以无论样本是否平衡,都不会被影响
如果我们从实际表现的各个结果角度出发,就可以避免样本不平衡的问题了,这也是为什么选用TPR和FPR作为ROC/AUC的指标的原因。

线性判别函数

ROC曲线也是通过遍历所有阈值来绘制整条曲线的

若某个学习器的ROC曲线被另一个学习器的曲线“包住”,则后者性能优于前者;否则如果曲线交叉,可以根据ROC
曲线下面积大小进行比较,也即AUC值.
AUC越高效果越好,真正率高,假正率小

代价敏感错误率

为了权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”。
线性判别函数
线性判别函数

Fisher线性判别

Fisher判别的基本思想:
希望投影后的一维数据满足:

  • 类之间的距离尽可能远; 
  • 每一类自身尽可能紧凑。 
    准则的描述:用投影后数据的统计性质—均值和离散度的函数作为判别优劣的标准。