李宏毅机器学习--回归和错误分析
模型步骤
step1:模型假设,选择模型框架(线性模型)
step2:模型评估,如何判断众多模型的好坏(损失函数)
step3:模型优化,如何筛选最优的模型(梯度下降)
模型假设
选择使用的是线性模型,特征乘上各自的权重加上偏移量
模型评估
这里需要定义损失函数就行
最佳模型
选择梯度下降模型
每一条线围成的圈就是等高线,代表损失函数的值,颜色约深的区域代表的损失函数越小
红色的箭头代表等高线的法线方向
问题
问题1:当前最优(Stuck at local minima)
问题2:等于0(Stuck at saddle point)
问题3:趋近于0(Very slow at the plateau)
过拟合问题
在训练集上面表现更为优秀的模型,在测试集上效果反而变差。
解决措施
Redesign the Model Again
考虑适当个数的特征
Regularization
更多特征,但是权重w可能会使某些特征权值过高,导致过拟合,所以正则化。、
w越小,变化越小,输出和输入不sensitive
w越小的大部分情况下都是好的
b值接近于0,对于曲线平滑没有影响
错误分析
错误来自bias和variance
无偏估计量unbiased
m分布对于u的离散程度方差:
样本方差不等于变量方差
错误其实来自两个方面 一个是你的中心距离标准点有多远Bias,二是他们点的聚集程度Variance:
没有办法fit 训练数据,表示bias较大 underfitting 增加特征更复杂的模型
训练数据error小 但是预测结果error大,overfitting 过拟合
模型选择
交叉验证
训练集分成两个部分,一部分作为训练集,一部份作为验证集,再用全部的训练集训练模型。
N-折交叉验证
将训练集分成N份,比如在三分中的训练结果Average错误最小,再用全部训练集训练一个模型