原视频地址 https://www.bilibili.com/video/BV1JE411g7XF?p=5
梯度下降是如何优化函数的
前情回顾:梯度函数是用来衡量找到的那一组参数的好坏的。

theta的上标表示参数的是第几组,下标表示参数是组中的第几个。
上图是将梯度分成两个偏导数表示,下图是直接使用梯度。
把梯度看成是损失函数等高线的法线方向,现在每得到一个函数,算出梯度,然后按梯度相反方向走。

tips
1. 小心调节学习率
原因如下图所示:
学习率太小:过慢,效率低
学习率太大:找不到最小的损失函数值
学习率刚刚好 Just make
