线性判别函数

文章目录

性能度量

错误率和精度
查准率和查全率
P-R曲线
F1 度量
ROC图
代价敏感错误率

Fisher线性判别

性能度量

线性判别函数

错误率和精度

错误率：分错样本占样本总数的比例
精度：分对样本占样本总数的比率

查准率和查全率

线性判别函数

P-R曲线

线性判别函数

理解P-R（查准率-查全率）

如果我们想要根据这个概率判断用户好坏的话，就必须定义一个阈值。超过阈值就判定为A,否则，判定为B。为了得到这个最合适、使结果最准确的阈值，我们需要遍历所有的阈值，而每个阈值对应一查准率和查全率，因此，得到了P-R曲线。
什么是最好的阈值点？我们期望查全率和查准率都较高，但二者矛盾，无法达到两全其美，因此，根据特定情况，偏向一些查全率或偏向查准率。

F1 度量

查全率和查准率的一个平衡点。
线性判别函数

ROC图

TPR（真正率） = TP/(TP+FN)

FPR（假正率） =FP/(FP+TN) 有多少负样本被错误地预测为正样本

线性判别函数

直接看矩阵好记忆。
TPR和FPR分别是基于实际表现1和0出发的，也就是说它们分别在实际的正样本和负样本中来观察相关概率问题
所以无论样本是否平衡，都不会被影响
如果我们从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用TPR和FPR作为ROC/AUC的指标的原因。

线性判别函数

ROC曲线也是通过遍历所有阈值来绘制整条曲线的

若某个学习器的ROC曲线被另一个学习器的曲线“包住”，则后者性能优于前者；否则如果曲线交叉，可以根据ROC
曲线下面积大小进行比较，也即AUC值.
AUC越高效果越好，真正率高，假正率小

代价敏感错误率

为了权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”。
线性判别函数

Fisher线性判别

Fisher判别的基本思想：
希望投影后的一维数据满足：

两类之间的距离尽可能远； 
每一类自身尽可能紧凑。 
准则的描述：用投影后数据的统计性质—均值和离散度的函数作为判别优劣的标准。

文章目录

性能度量

错误率和精度

查准率和查全率

P-R曲线

F1 度量

ROC图

代价敏感错误率

Fisher线性判别

相关推荐