数据挖掘面试题之recall、precision、accuracy
精确率, 准确率和召回率是广泛用于信息检索和统计学分类领域的度量值,用来评价结果的质量。下图可以帮助理解和记忆它们之间的关系, 其中精确率(precision)和准确率(accuracy)都是关于预测效果的描述. 召回率是关于预测样本的描述。
精确率表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP), 也就是P = TP / (TP + FP)。
准确率表示的是预测的正负样本有多少是真实的正和负, 预测正确的数量占全部预测数量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部样本。
召回率表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN), 也就是R = TP / (TP + FN)。
精确率和召回率二者计算方法其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。
如果提高分界阈值大于0.5, 则预测为正的样本数要降低, 相当于把图中圆圈变小, 按下图则可计算