最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理

最小二乘法

基本公式：
考虑超定方程组（超定指方程个数大于未知量个数）：
最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理

其中m代表有m个等式，n代表有 n 个未知数，m>n ；将其进行向量化后为：

最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理
　　，，
显然该方程组一般而言没有解，所以为了选取最合适的让该等式"尽量成立"，引入残差平方和函数S

（在统计学中，残差平方和函数可以看成n倍的均方误差MSE）
最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理

梯度下降法

梯度下降法是一个最优化算法，常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。
顾名思义，梯度下降法的计算过程就是沿梯度下降的方向求解极小值（也可以沿梯度上升方向求解极大值）。
其迭代公式为最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理
梯度方向我们可以通过对函数求导得到，步长的确定比较麻烦，太大了的话可能会发散，太小收敛速度又太慢。一般确定步长的方法是由线性搜索算法来确定，即把下一个点的坐标看做是a（k+1）的函数，然后求满足f(a(k+1))的最小值的a（k+1）即可。
因为一般情况下，梯度向量为0的话说明是到了一个极值点，此时梯度的幅值也为0.而采用梯度下降算法进行最优化求解时，算法迭代的终止条件是梯度向量的幅值接近0即可，可以设置个非常小的常数阈值。

牛顿法

最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理
已经证明，如果是连续的，并且待求的零点是孤立的，那么在零点周围存在一个区域，只要初始值位于这个邻近区域内，那么牛顿法必定收敛。并且，如果不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说，这意味着每迭代一次，牛顿法结果的有效数字将增加一倍。
利用迭代算法解决问题，需要做好以下三个方面的工作：
一、确定迭代变量
在可以用迭代算法解决的问题中，至少存在一个可直接或间接地不断由旧值递推出新值的变量，这个变量就是迭代变量。
二、建立迭代关系式
所谓迭代关系式，指如何从变量的前一个值推出其下一个值的公式（或关系）。迭代关系式的建立是解决迭代问题的关键，通常可以使用递推或倒推的方法来完成。
三、对迭代过程进行控制
在什么时候结束迭代过程？这是编写迭代程序必须考虑的问题。不能让迭代过程无休止地执行下去。迭代过程的控制通常可分为两种情况：一种是所需的迭代次数是个确定的值，可以计算出来；另一种是所需的迭代次数无法确定。对于前一种情况，可以构建一个固定次数的循环来实现对迭代过程的控制；对于后一种情况，需要进一步分析得出可用来结束迭代过程的条件。

高斯牛顿法

高斯-牛顿迭代法的基本思想是，使用泰勒级数展开式去近似地代替非线性回归模型，然后通过多次迭代，多次修正回归系数，使回归系数不断通过通近非线性回归模型的最佳回归系数，最后使原模型的残差平方和达到最小。
高斯-牛顿法的一般步骤如下所示：
(1) 初始值的选择。其方法有三种：
一是根据以往的经验选定初始值；
二是用分段法求出初始值；
三是对于可线性化的非线性回归模型，通过线性变换，然后施行最小平方法求出初始值
最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理

最小二乘法，梯度下降法，牛顿迭代法，高斯牛顿法原理整理