高博14讲中P110页一二阶梯度法的相关理解
高博14将在110页的6.2.1中写到:
前面定义好的目标函数:
求解增量最直观的方式是将目标函数在x附近进行泰勒展开:
这里J是目标函数关于x的导数(雅克比矩阵),而H则是二阶导数(海塞[hessian]矩阵)。我们可以选择保留泰勒展开的一阶二阶项,对应的求解方法则为一阶梯度或二阶梯度法。如果保留一阶梯度,那么增量的解就为:
它的直观意义非常简单,只要我们沿着反向梯度方向前进即可。通常我们还会计算该方向上的一个步长,求得最快的下降方式。这种方法被称为最速下降法。
这里有几个问号脸(数学比较渣导致的):
1、J(x)是如何定义的?
2、增量的解怎么求出来的?
3、增量的解为什么有个转置T?
4、梯度是什么?
1、基本概念
1.1 方向导数
1.2 梯度的概念
如果考虑z=f(x,y)描绘的是一座在点(x,y)的高度为f(x,y)的山。那么,某一点的梯度方向是在该点坡度最陡的方向,而梯度的大小告诉我们坡度到底有多陡。
这里注意看,梯度算出来是个向量,而向量用矩阵表示一般是用列表示。下面用更一般的形式写一写:
对于一个一维的y,对应一个二维的自变量x,函数为:y=f(x),这里记住,是列向量!
对于含有n个变量的标量函数,
1.3 梯度与方向导数
函数在某点的梯度是这样一个向量,它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值。
1.4 梯度与等高线
函数z=f(x)在点P(x,y)的梯度的方向与过点的等高线f(x,y)=c在这点的法线的一个方向相同,且从数值较低的等高线指向数值较高的等高线,而梯度的模等于函数在这个法线方向的方向导数。这个法线方向就是方向导数取得最大值的方向。
即负梯度方向为最速下降方向