十一: 系统设计
学习算法构建推荐流程:
1. 在短时间内构建一个简单可实现的算法,运行数据并通过交叉检验来验证数据;
2. 完成第一步后,便可以绘制学习曲线,通过曲线观察算法是否有高偏差或者高方差的问题,以此作为下一步决策的依据,
是添加更多训练集还是增减特征等等;
3. 人工检查交叉验证集中预测失败的数据(误差分析),来发觉算法的缺陷去修复;
类偏斜的误差度量:在训练集中,某一类数据占高比,其它类占很小比例甚至没有;
为了确认这个问题,引入
查准率:TP/(TP+FP) 即所有预测为真的数据中,实际为真的数据比例
查全率:TP/(TP+FN) 即所有真实为真的数据中,成功预测出真的数据比例
其中
TP:(正确肯定-True Positive):预测为真,实际为真
TN:(正确否定-True Negative):预测为假,实际为假
FP:(错误肯定-False Positive):预测为真,实际为假
FN:(错误否定-False Negative):预测为假,实际为真
不同阈值下,查准率和查全率图表关系如下:
如果想要高查准率,可以适当提高阈值到0.7,0.8等,这样会减少错判,但是也增加了未成功预测的情况;
如果想要高查全率,可以适当降低阈值到0.3,0.2等,这样可以增加预测为真的概率;
二者平衡:通常可以选取使F1 score=2PR/(P+R) 最高的阈值
------------------------------------------------------------------------------------------------------------------------------------
文章内容学习整理于吴教授公开课课程与黄博士笔记,感谢!