分类算法评价指标 准确率、精确率、召回率、F-score、ROC、PR曲线
分类是将数据根据一定的规律进行分类,进入模型能够对未来数据进行预测。
应用场景包括:
- 判断邮件是否是垃圾邮件
- 判断是否发放贷款
- 判断是否为不良用户
常见的分类算法包括:
- 朴素贝叶斯
- 支持向量机
- 逻辑回归
- 决策树
- KNN临近算法
评价指标
值指标
准确率 Accuracy
正确分类的样本数与总样本数之比(预测对的总样本 / 总总样本数)
如图,准确率为
精确率 Precision
判定为正例中真正正例数与判定为正例数之比(预测满足指标的样本中有多少是预测正确的)
模型的目标是为了预测患病人数,改模型预测出有20人患病,和实际情况相比,20人中有8人的确患病。
召回率 Recall
被正确判定为正例数与总正例数之比 (实际满足指标的样本中有多少被正确预测)
实际患病(满足指标)的人数有10人,其中有8人正确预测出来。
F-Score
有时候我们需要考虑Precision,有时候需要考虑Recall,还有时候我们需要都考虑,那么F-score就是两者的调和平均值