分类模型评价指标-召回率和精确率

如何评价一个分类模型的好坏,我们需要一些评价指标来评价分类模型的好与坏,我们今天主要讲解召回率和精确率的这两个评价指标。

1.几个常用的术语

现在假设我们的分类目标只有两类,计为正类(positive)和负类(negtive)分别是:
1)True positives(TP): (真阳性)被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);
2)False positives(FP):(假阳性) 被错误地划分为正例的个数,即 实际为负例但被分类器划分为正例的实例数;
3)False negatives(FN):(假阴性)被错误地划分为负例的个数,即实际为正例但被分类器划分为 负例的实例数;
4)True negatives(TN): (假阴性)被正确地划分为负例的个数 ,即实际为负例且被分类器划分为负例的实例数。
下面有图来具体的了解一下:分类模型评价指标-召回率和精确率

  • 矩形表示来医院检验是否得癌症的人
  • 黑圆表示实际得癌症的人
  • 白圆表示实际没有得癌症的人
  • 大白圆表示我们预测得癌症的人
  • 圆形以外表示我们预测未得癌症的人
    我们有图可知,
    1.大白圆以外的黑点表示预测不得癌症,实际得癌症为假阴性
    2.大白圆以外的白点表示预测不得癌症,实际也不得癌症为真阴性
    3.大白圆以内的黑点表示预测得癌症,实际得癌症为真阴性
    4.大白圆以内的白点表示预测得癌症,实际不得癌症为假阳性
2.精确率和召回率
  • 精确率的表达式:分类模型评价指标-召回率和精确率
    精确率:在被所有预测为正的样本中实际为正样本的概率
    用上图解释的,就是预测中实际得癌症实际也得癌症的人(大白圆中黑点数)占预测得癌症的人(大白圆中的所有数)的概率。

  • 召回率的表达式:
    分类模型评价指标-召回率和精确率召回率就是识别的正例占所有实际正例的比例。
    用上图解释的,就是预测中实际得癌症实际也得癌症的人(大白圆中黑点数)占实际得癌症的人(所有黑点数)的概率。
    -召回率和精确率的关系
    精准率和召回率是两个互相矛盾的目标,提高一个指标,另一个指标就会不可避免的下降。
    在实际生活中我们一般根据实际情况确定,我们要提高那个指标,比如在上述例子中则是要保证准确率的条件下,提升召回率,如果我们将未得癌症的人预测为得癌症,只会重新检查而已,代价不大。得癌症的人如果没有预测出,就是一条生命,代价太大。

  • 实际应用:

(1)如果是做搜索,则要在保证召回率理想的情况下,提升准确率。
(2)如果做疾病监测、反垃圾,则是要保证准确率的条件下,提升召回率。

3.结论:

在实际工作中,我们需要根据实际情况,确定提高准确率还是召回率。