模型评估与选择

1. 欠拟合和过拟合

2. 回归模型的评估

3. 分类模型的评估

  • 分类结果混淆矩阵
    模型评估与选择
    混淆矩阵表中,T和F代表预测结果的真假,P和N代表预测成正例还是反例,根据这张表可以求出很多性能评估指标
  • 准确率(Accuracy):分类正确的样本数占样本总数的比例
    模型评估与选择
  • 错误率(Error rate):分类错误的样本数占样本总数的比例
    模型评估与选择
  • 精确率、查准率(Precision):被预测为正例的样本中实际为正例的比例,简写为P
    模型评估与选择
  • 召回率、查全率(Recall):有多个正例被分为正例,简写为R
    模型评估与选择
    注:查准率和查全率有时候会出现的矛盾的情况,已挑选西瓜为例,若希望将好瓜尽可能多的挑选出来,则可通过增加选瓜的数量来实现,如果将所有西瓜都选上,那么所有的好瓜也必然选上,但这样查准率比较低;若希望选出的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜,但这样就难免漏掉不少好瓜,使得查全率较低
  • 综合评价指标(F-Measure):P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure
    模型评估与选择