【李宏毅2020 ML/DL】P4 Basic Concept
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
已经有人记了笔记(很用心,强烈推荐):
https://github.com/Sakura-gh/ML-notes
本节对应笔记:Where does the error come from?
本节内容综述
- 误差可能来源于
Bias
与Variance
; - 如果误差来源于
Bias
,为Overfitting
,来源于Variance
,为Underfitting
; - 模型的选择(类似交叉验证前置知识),要注意:在公共测试集测试,在私有测试集未必表现好;
- N-fold Cross Validation,进行交叉验证。
小细节
What to do with large bias?
如果是过拟合:
- 可以考虑增加输入(特征工程、更多地数据);
- 可以考虑更复杂的模型。
What to do with large variance?
如果是不拟合:
- 更多的数据;
- 正则化(让曲线更平滑)。