线性模型_梯度下降与直接求解

线性模型

用一条线拟合实际数据： $h(\theta)=\theta_{0}x_{0}+\theta_{1}x_{1}+...+\theta_{n}x_{n}$
这里，将 $h(\theta)$ 称为假设函数，是对实际值的一种估计，是估计就会有偏差，我们的目标是尽量的找到估计值与实际值之间的误差最小的拟合线，这样可以使用拟合线预测未知数据。

利用最小二乘法构建损失函数

损失函数： $J(\theta)=\frac{1}{2N}\sum_{i=1}^{N}(h_{\theta}(x^{(i)})-y^{(i)})^2$

以单变量线性模型为例，下图表示 $\theta_{0}=0$ 时，不同的 $\theta_{1}$ 值的拟合线与真实值之间的关系，最好的拟合线是橘色线，即斜率为2.
线性模型_梯度下降与直接求解

当 $\theta_{1}=0< 2$ （最佳拟合）时，估计值与真实值差距大，损失函数值大
当 $\theta_{1}=3>2$ （最佳拟合）时，估计值与真实值差距大，损失函数值大
即，损失函数在最佳取值左右两侧都会比较大

损失函数随 $\theta$ 的变化情况：

线性模型_梯度下降与直接求解

梯度下降法优化损失函数

梯度下降的方式是在不知道最优参数时，初始化一个参数值，然后不断优化，在找最小值的过程中沿着负梯度（一阶导）的方向下降最快，因此沿着这个方向走。方向确定好，确定向前走的步长（学习率）。

梯度对优化的影响：
- 初始值在最优点右侧时，负梯度<0,步长 $\alpha$ >0,更新参数时，参数向减小的方向移动。

线性模型_梯度下降与直接求解
- 初始值在最优点左侧时，负梯度>0,步长 $\alpha$ >0,更新参数时，参数向增加的方向移动。

步长对优化的影响
- 步长 $\alpha$ 过大,可能造成不收敛，左图
- 步长 $\alpha$ 过小，优化速度会比较慢

线性模型_梯度下降与直接求解
推广到多变量线性模型，梯度下降对参数的更新：

$\theta j := \theta j - \alpha \frac{\partial J(\theta)}{\partial \theta j}$
线性模型： $\theta j := \theta j - \alpha \frac{1}{N} \sum_{i=1}^{N}(h_{\theta}(x^{(i)}-y^{(i)})x_{j}^{(i)})$
梯度下降对参数的更新要所有参数一起更新。即每轮更新成新的 $h_{\theta}(X)$ ,假设函数中，每个参数都更新，再进行下一轮。