梯度下降法入门解析
1、梯度下降法是做什么用的?
机器学习中都有一个代价函数,训练时就是要使代价函数值最小,这样假设的值和实际值就越接近。而代价函数中有参数,要使代价函数最小,则需要调节参数,这个过程就是最优化的一个过程,梯度下降法是一个最优化的方法。
2、代价函数对其中某参数求偏导数,即得到此参数对应的梯度。而代价函数要达到最小,就要下降,下降有慢有快,下降最快的方向是此参数对应的梯度的反方向,参数朝着其梯度反方向变化,则函数值以最快的速度减小,为什么?见下面文章。为什么梯度反方向是函数值局部下降最快的方向?
3、函数在最优值时,有最优的参数,所以我们每次迭代,更新的其实是相关的参数。
4、反向传播算法
通过梯度下降法,更新参数一般是从最后面开始更新,逐渐推到前面,所以是反向。这是一种误差反向传播算法,传播过程中就完成了每层网络的参数更新。误差就是上面说的代价函数。