漫步最优化三十七——共轭梯度法

我卸不下对你的喜欢，
因为爱会慢慢增加重量。
我醉心于你的发香，
因为它让回想有了画面感。
在虚拟的土壤与
真实的肉体上，
文字与真心蔓延滋长了
我们的感情。
脑海储存着幸福，
不断放送着你可爱的模样。
——畅宝宝的傻逼哥哥
Hestenes与Stiefel提出了一种生成共轭方向的有效方法，就是共轭梯度法。该方法中，每次迭代生成方向，当迭代第k+1次时，用前一个方向dk生成新的点xk+1，然后βdk加上−gk+1(新点处的负梯度)生成新的方向dk+1。

共轭方向法基于下面的定理，除了定义生成共轭方向的方法外，其余都与上篇文章的定理1一样。

定理1：(a)如果H是正定矩阵，那么对任意初始点x0与初始方向

d 0 = - g 0 = - (b + H x 0)

由递推关系

x k + 1 = x k + α k d k (1)

生成的序列收敛到唯一解x∗，其中

α k g d k + 1 β k = - g T k d k d T k H d k = b + H x k = - g k + 1 + β k d k = g T k + 1 H d k d T k H d k (2) (3) (4) (5)

(b)梯度gk与{g0,g1,…,gk−1}正交，即

g T k g i = 0 f o r 0 \leq i < k

证明：收敛性的证明与上篇文章的定理1一样，所以还需要证明的就是方向d0,d1,…,dn−1组成一个共轭集合，即

d T k H d i = 0 for 0 \leq i < k and 1 \leq k \leq n

接下来我们用归纳法进行证明。假设

d T k H d i = 0 for 0 \leq i < k (6)

我们需要说明

d T k + 1 H d i = 0 for 0 \leq i < k + 1

令S(v0,v1,…,vk)是向量v0,v1,…,vk生成的子空间，因为

g k + 1 = g k + α k H d k (7)

故当k=0时，我们有

g 1 = g 0 + α 0 H d 0 = g 0 - α 0 H g 0

因为d0=−g0。另外，由等式4可得

d 1 = - g 1 + β 0 d 0 = - (1 + β 0) g 0 + α 0 H g 0

即g1,d1是g0,Hg0的线性组合，所以

S (g 0, g 1) = S (d 0, d 1) = S (g 0, H g 0)

同样地，对于k=2我们有

g 2 = d 2 = g 0 - [α 0 + α 1 (1 + β 0)] H g 0 + α 0 α 1 H 2 g 0 - [1 + (1 + β 0) β 1] g 0 + [α 0 + α 1 (1 + β 0) + α 0 β 1] H g 0 - α 0 α 1 H 2 g 0

因此

S (g 0, g 1, g 2) S (d 0, d 1, d 2) = S (g 0, H g 0, H 2 g 0) = S (g 0, H g 0, H 2 g 0)

继续用归纳法，我们可以得到

S (g 0, g 1, \dots, g k) S (d 0, d 1, \dots, d k) = S (g 0, H g 0, \dots, H k g 0) = S (g 0, H g 0, \dots, H k g 0) (8) (9)

现在根据等式4可得

d T k + 1 H d i = - g T k + 1 H d i + β k d T k H d i (10)

当i=k时，等式5得出

d T k + 1 H d k = - g T k + 1 H d k + β k d T k H d k = 0 (11)

当i<k时，等式9表明

H d i \in S (d 0, d 1, \dots, d k)

所以Hdi可以用线性组合

H d i = \sum i = 1 k a i d i (12)

来表示，其中αi,i=0,1,…,k是常数。接下来根据等式10与等式12

d T k + 1 H d i = - \sum i = 0 k a i g T k + 1 d i + β k d T k H d i = 0 for i < k (13) (14)

根据上篇文章定理2第一部分的正交性，上式的第一项等于零，而根据假设等式6可知，上式第二项等于零。结合等式11与13我们有

d T k + 1 H d i = 0 for 0 \leq i < k + 1 (15)

对于k=0，等式14得出

d T 1 H d i = 0 for 0 \leq i < 1

且根据等式6与14，我们得出

d T 2 H d i d T 3 H d i ⋮ d T k H d i = 0 for 0 \leq i < 2 = 0 for 0 \leq i < 3 ⋮ = 0 for 0 \leq i < k

(b)根据等式8与9可知，g0,g1,…,gk生成的子空间与d0,d1,…,dk是一样的，因此他们是线性无关的，由此可得

g i = \sum j = 0 i a j d j

其中aj是常数，j=0,1,…,i。根据上篇文章的定理2可知

g T k g i = \sum j = 0 i a j g T k d j = 0 for 0 \leq i < k

上面定理中αk,βk的表达式可以进一步化简，根据等式4可得

- g T k d k = g T k g k - β k - 1 g T k d k - 1

其中根据上篇文章的定理2可知

g T k d k - 1 = 0

故

- g T k d k = g T k g k

所以等式2的α表达式可以改成

α k = g T k g k d T k H d k (16)

另一方面，因为

H d k = 1 α k (g k + 1 - g k)

所以

g T k + 1 H d k = 1 α k (g T k + 1 g k + 1 - g T k + 1 g k) (17)

接下来根据等式8与9可得

g k \in S (d 0, d 1, \dots, d k)

或者

g k = \sum i = 0 k a i d i

又因为

g T k + 1 g k = \sum i = 0 k a i g T k + 1 d i = 0 (18)

所以等式5,15,16与17得到

β k = g T k + 1 g k + 1 g T k g k

上面的原则与定理得到了下面的算法：

算 法 1 ： 共 轭 梯 度 算 法 步 骤 1 输 入 x 0 并 初 始 化 容 忍 误 差 ε 步 骤 2 计 算 g 0 并 令 d 0 = - g 0, k = 0 步 骤 3 输 入 H k, 即 x k 处 的 海 森 矩 阵 计 算 α k = g T k g k d T k H k d k 令 x k + 1 = x k + α k d k 并 计 算 f k + 1 = f (x k + 1) 步 骤 4 如 果 ∥ α k d k ∥ < ε, 输 出 x * = x k + 1, f (x *) = f k + 1 算 法 结 束 步 骤 5 计 算 g k + 1 计 算 β k = g T k + 1 g k + 1 g T k g k 生 成 新 的 方 向 d k + 1 = - g k + 1 + β k d k 令 k = k + 1 然 后 回 到 步 骤 3

对于二维凸二次问题，上述算法得到的解的轨迹如图1所示，注意x1=x0−α0g0，其中α0是最小化f(x0−αg0)的α值，与最速下降法一样。

共轭梯度算法的主要优点为：

梯度是有限的，并且与前面的方向向量线性无关，当然除了问题的解本身外。
计算相对简单，相比最速下降法稍微复杂一点点。
不需要线搜索。
对于凸二次问题，该算法n次迭代就能收敛。
第一次选的方向就是最速下降的方向，所以第一次得带就能很好的减少f(x)。
因为方向是基于梯度信息的，当应用到非二次问题时，该算法有较好的收敛性。
不需要考虑海森矩阵的逆。

该算法的缺点为：

需要存储，计算海森矩阵。
对于非二次问题，存在极个别情况会无法达到收敛。

图1

漫步最优化三十七——共轭梯度法

相关推荐