Linear Regression

Loss Function

  • 理论基础:中心极限定理
    • 误差符合高斯分布

Linear Regression
- 公式推导
Linear Regression
Linear Regression
解释了为什么损失函数是这个形式

模型求解

意义:理论上推导出模型可解,但对矩阵求导,计算量很大,实际不采用

对目标函数求梯度
Linear Regression

使梯度为0
Linear Regression

为什么能添加扰动能防过拟合?

通过实践可得,当n维特征向量映射成更高维的特征时,最后求解得到的参数值都很大,因此希望在原loss function基础上添加关于参数的项,来作为对模型复杂度的惩罚
Linear Regression

为什么加了扰动后一定可逆?

Linear Regression

对新的目标函数求梯度

Linear Regression

复杂度惩罚因子

LASSO:
- L2-norm:性能往往不错,但没有特征选择功能
- L1-norm:高阶系数接近于0,相当于进行了特征选择
- Elastic Net:L1-norm与L2-norm融合

感性解释:从实验出发,跑代码,当过拟合发生时,其系数很大,因此想把其系数也作为损失函数的一部分

帮助理解的解释:
拉格朗日乘子法,推导出L1-norm的形式
Linear Regression

广义逆矩阵(伪逆)

Linear Regression
Linear Regression

模型优化

  • 批量梯度下降算法
    Linear Regression
  • 随机梯度下降算法:支持在线学习
    Linear Regression
  • mini-batch