机器学习部分:混淆矩阵问题(Confusion Matrix)

混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。

机器学习部分:混淆矩阵问题(Confusion Matrix)

对以上混淆矩阵的解释:

P:样本数据中的正例数。

N:样本数据中的负例数。

Y:通过模型预测出来的正例数。

N:通过模型预测出来的负例数。

True Positives:真阳性,表示实际是正样本预测成正样本的样本数。

Falese Positives:假阳性,表示实际是负样本预测成正样本的样本数。

False Negatives:假阴性,表示实际是正样本预测成负样本的样本数。

True Negatives:真阴性,表示实际是负样本预测成负样本的样本数。

以下有几个概念需要先说明:

TP(True Positive): 真实为0,预测也为0

FN(False Negative): 真实为0,预测为1

FP(False Positive): 真实为1,预测为0

TN(True Negative): 真实为1,预测也为1

 

机器学习部分:混淆矩阵问题(Confusion Matrix):分类模型总体判断的准确率(包括了所有class的总体准确率)

机器学习部分:混淆矩阵问题(Confusion Matrix): 预测为0的准确率

机器学习部分:混淆矩阵问题(Confusion Matrix): 真实为0的准确率。召回率维持在80%就比较好。

机器学习部分:混淆矩阵问题(Confusion Matrix): 真实为1的准确率

机器学习部分:混淆矩阵问题(Confusion Matrix): 预测为1的准确率

机器学习部分:混淆矩阵问题(Confusion Matrix): 对于某个分类,综合了Precision和Recall的一个判断指标,F1-Score的值是从0到1的,1是最好,0是最差

机器学习部分:混淆矩阵问题(Confusion Matrix): 另外一个综合Precision和Recall的标准,F1-Score的变形

 

举个经典的二分类例子:

机器学习部分:混淆矩阵问题(Confusion Matrix)                      机器学习部分:混淆矩阵问题(Confusion Matrix)

机器学习部分:混淆矩阵问题(Confusion Matrix),            机器学习部分:混淆矩阵问题(Confusion Matrix),            机器学习部分:混淆矩阵问题(Confusion Matrix) 

如果是多分类的呢?举一个三分类的例子:

机器学习部分:混淆矩阵问题(Confusion Matrix)

机器学习部分:混淆矩阵问题(Confusion Matrix),     机器学习部分:混淆矩阵问题(Confusion Matrix),     机器学习部分:混淆矩阵问题(Confusion Matrix)

因此我们知道,计算Specificity,Recall,Precision等只是计算某一分类的特性,而Accuracy和F1-Score这些是判断分类模型总体的标准。我们可以根据实际需要,得出不同的效果。

机器学习部分:混淆矩阵问题(Confusion Matrix)