最小二乘法,梯度下降法,牛顿迭代法,高斯牛顿法原理整理
最小二乘法
基本公式:
考虑超定方程组(超定指方程个数大于未知量个数):
其中m代表有m个等式,n代表有 n 个未知数 ,m>n ;将其进行向量化后为:
, ,
显然该方程组一般而言没有解,所以为了选取最合适的 让该等式"尽量成立",引入残差平方和函数S
(在统计学中,残差平方和函数可以看成n倍的均方误差MSE)
梯度下降法
梯度下降法是一个最优化算法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。
顾名思义,梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。
其迭代公式为
梯度方向我们可以通过对函数求导得到,步长的确定比较麻烦,太大了的话可能会发散,太小收敛速度又太慢。一般确定步长的方法是由线性搜索算法来确定,即把下一个点的坐标看做是a(k+1)的函数,然后求满足f(a(k+1))的最小值的a(k+1)即可。
因为一般情况下,梯度向量为0的话说明是到了一个极值点,此时梯度的幅值也为0.而采用梯度下降算法进行最优化求解时,算法迭代的终止条件是梯度向量的幅值接近0即可,可以设置个非常小的常数阈值。
牛顿法
已经证明,如果是连续的,并且待求的零点是孤立的,那么在零点周围存在一个区域,只要初始值位于这个邻近区域内,那么牛顿法必定收敛。 并且,如果不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说,这意味着每迭代一次,牛顿法结果的有效数字将增加一倍。
利用迭代算法解决问题,需要做好以下三个方面的工作:
一、确定迭代变量
在可以用迭代算法解决的问题中,至少存在一个可直接或间接地不断由旧值递推出新值的变量,这个变量就是迭代变量。
二、建立迭代关系式
所谓迭代关系式,指如何从变量的前一个值推出其下一个值的公式(或关系)。迭代关系式的建立是解决迭代问题的关键,通常可以使用递推或倒推的方法来完成。
三、对迭代过程进行控制
在什么时候结束迭代过程?这是编写迭代程序必须考虑的问题。不能让迭代过程无休止地执行下去。迭代过程的控制通常可分为两种情况:一种是所需的迭代次数是个确定的值,可以计算出来;另一种是所需的迭代次数无法确定。对于前一种情况,可以构建一个固定次数的循环来实现对迭代过程的控制;对于后一种情况,需要进一步分析得出可用来结束迭代过程的条件。
高斯牛顿法
高斯-牛顿迭代法的基本思想是,使用泰勒级数展开式去近似地代替非线性回归模型,然后通过多次迭代,多次修正回归系数,使回归系数不断通过通近非线性回归模型的最佳回归系数,最后使原模型的残差平方和达到最小。
高斯-牛顿法的一般步骤如下所示 :
(1) 初始值的选择。其方法有三种:
一是根据以往的经验选定初始值;
二是用分段法求出初始值;
三是对于可线性化的非线性回归模型,通过线性变换,然后施行最小平方法求出初始值