机器学习部分:混淆矩阵问题(Confusion Matrix)
混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。
对以上混淆矩阵的解释:
P:样本数据中的正例数。
N:样本数据中的负例数。
Y:通过模型预测出来的正例数。
N:通过模型预测出来的负例数。
True Positives:真阳性,表示实际是正样本预测成正样本的样本数。
Falese Positives:假阳性,表示实际是负样本预测成正样本的样本数。
False Negatives:假阴性,表示实际是正样本预测成负样本的样本数。
True Negatives:真阴性,表示实际是负样本预测成负样本的样本数。
以下有几个概念需要先说明:
TP(True Positive): 真实为0,预测也为0
FN(False Negative): 真实为0,预测为1
FP(False Positive): 真实为1,预测为0
TN(True Negative): 真实为1,预测也为1
:分类模型总体判断的准确率(包括了所有class的总体准确率)
: 预测为0的准确率
: 真实为0的准确率。召回率维持在80%就比较好。
: 真实为1的准确率
: 预测为1的准确率
: 对于某个分类,综合了Precision和Recall的一个判断指标,F1-Score的值是从0到1的,1是最好,0是最差
: 另外一个综合Precision和Recall的标准,F1-Score的变形
举个经典的二分类例子:
,
,
如果是多分类的呢?举一个三分类的例子:
,
,
因此我们知道,计算Specificity,Recall,Precision等只是计算某一分类的特性,而Accuracy和F1-Score这些是判断分类模型总体的标准。我们可以根据实际需要,得出不同的效果。