机器学习之模型评估
1. 评估指标的局限性
准确率(Accuracy): 分类正确的样本占总样本个数的比列
精确率(Pression):分类正确的正样本占分类器判定为正样本个数的比列
召回率(Recall):分类正确的正样本占真正的正样本个数的比列
准确率的局限性:
当不同类别的样本比例非常不均衡的时候,占比大的类别往往会成为影响准确率的最主要的因素。
为了解决这个问题,可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。
为了综合评估一个模型的好坏,最好绘制出模型的P-R曲线,这里简单介绍一下P-R曲线
平方根:RMSE
注:一般情况下,RMSE能够很好的放映回归模型预测值和真实值的偏离程度,但在实际问题中,如果存在个别偏离程度非常大的离群点时,RMSER指标变得很差,此时可以用平均百分比误差MAPE(Mean Absolute PErcent Error)
2.ROC曲线(略)
1.什么时ROC曲线?掌握FPR和TPR的计算方法和含义
ROC曲线时Receiver Operating Characteristic Curve的简称,横坐标为假阳性率(Flase Positive Rate )FPR;纵坐标为真阳性率(TRue Positive Rate)TPR
P是真实的正样本的数量,N是真实值的负样本的数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数
FPR = FP/N
TPR= TP/P
2.如何绘制ROC曲线
在ROC图上绘制出每个截断点对应的位置,再连接所有点就得到最终的ROC曲线
截断点:曲风正负预测结果的阈值
3.如何计算AUC
AUC是指ROC曲线下的面积的大小,该值能够量化地反映基于ROC曲线衡量出的模型的性能。
AUC的取值一般在0.5-1之间,AUC越大说明分类器可能把真正的样本排在前面,分类性能越好。
4.ROC曲线与P-R曲线的区别
ROC曲线能够适应更多的场景,被广泛的用于排序,推荐,广告等领域,但希望看到模型在特定数据集上的表现,p-R曲线能够更直观地反映其性能。
3.余弦距离
对象特征维度很高的时候,余弦相似度在高维情况下依旧保持“相同时为1,正交时为0,相反时为-1”的性质,而欧式距离却不行,所以常常用于文本,图像,视频等领域。
4.A/B测试
A/B测试是验证新模块,新功能,新产品是否有效,新算法,新模型的效果是否有提升,新设计是否受到用户的欢迎,新更改是否影响用户体验的主要检测方法,在机器学习领域中,A/B测试是验证模型最终效果的主要手段。
在对模型进行充分的离线评估后,为什么还要机型在线A/B测试?
原因有三点:
(1).离线评估无法完全消除模型过拟合的影响
(2) 离线评估无法还原线上的工程环境
(3)线上系统的某些商业指标在离线评估中无法计算。
如何进行线上A/B测试?
主要手段是:用户分桶
即将用户分成实验组和对照组,实验组的用户使用新的模型,对照组使用旧模型。在分桶的时候注意样本的独立性和采样方式的无偏性,确保同一个用户每次只能分到同一个桶里,在分桶的过程中所选取的user_id需要时一个随机数,这样才能保证桶中的样本是无偏的。
5.模型评估的方法
Holdout检验, 交叉检验,自助法
6 超参数调优
网络搜索, 随机搜索,贝叶斯优化算法
7.过拟合和欠拟合
过拟合:模型咋训练集上的表现很好,但在测试集和新数据上的表现较差
欠拟合:模型在训练和预测都表现得不好
降低“过拟合”风险的方法
(1)从数据入手,获得更多的训练数据
(2) 降低模型复杂度
(3) 正则化方法
(4)集成学习方法
降低“欠拟合”风险的方法
(1) 添加新特征
(2)增加莫习性复杂度
(3) 减小正则化系数