线搜索理论满足以下模型，其中 $a_{k}$ 为步长， $p_{k}$ 为搜索方向：

x_{k + 1} = x_{k} + α_{k} p_{k}

为保证

p_{k}

在目标函数

f

的下降方向，需要满足

p_{k}^{T} \nabla f_{k} < 0

，其一般模型为：

p_{k} = - B_{k}^{- 1} \nabla f_{k}

其中当

B_{k}

对称满秩且正定时，能够保证

p_{k}

指向

f

下降方向

steepest descent method: $B_{k} = I$ （单位矩阵）
Newton’s method: $B_{k} = \nabla^{2} f (x_{k})$ （Hessian 矩阵）
Quasi-Newton method： $B_{k} \to$ Hessian 估计矩阵（SR1 或 BFGS 方法等）

上述内容可以参考我的上一篇笔记。

这篇笔记对 $α_{k}$ 的选择以及 收敛率（rate of convergence）做深入讨论。

1. 步长 Step Length

对于步长的选择，主要基于两个权衡：

$α_{k}$ 能够实现 $f$ 的大幅下降
不能花太多时间做决定

一般最为理想的方法是取下述 $ϕ (.)$ 的最小值：

ϕ (α) = f (x_{k} + α p_{k}) ， α > 0

但通常此求解过程非常复杂，无法实现，故退而希望

α_{k}

满足以下两个条件：

当前 $α_{k}$ 推进的部分在 $f$ 的 $p_{k}$ 方向的下降区间内
$α_{k}$ 较长，可以实现更有效率的下降

故引入以下几种条件。

1.2 Wolfe 条件 The Wolfe Conditions

Wolfe 条件其中包括两条条件：

Armijo Condition：保证 $α_{k}$ 在 $p_{k}$ 方向上 $f$ 的下降区间内
$ϕ (α) = f (x_{k} + α p_{k}) l (α) = f (x_{k}) + c_{1} α \nabla f_{k}^{T} p_{k}, c_{1} \in (0, 1) ϕ (α) \leq l (α)$
其中 $c_{1}$ 的典型值为 $c_{1} = 10^{- 4}$
曲率条件：保证 $α_{k}$ 在上述条件的基础上足够大，使得算法有效率

ϕ^{'} (α_{k}) = \nabla f (x_{k} + α_{k} p_{k})^{T} p_{k} ϕ^{'} (α_{k}) \geq c_{2} ϕ^{'} (0), c_{2} \in (c_{1}, 1)

其中 $c_{2}$ 的典型值如下：

Newton / Quasi-Newton: $c_{2} = 0.9$
Nonlinear conjugate gradient method: $c_{2} = 0.1$

综上所述，完整的 Wolfe Conditions 的叙述是：

f (x_{k} + α p_{k}) \leq f (x_{k}) + c_{1} α \nabla f_{k}^{T} p_{k} \nabla f (x_{k} + α_{k} p_{k})^{T} p_{k} \geq c_{2} \nabla f_{k}^{T} p_{k}, 0 < c_{1} < c_{2} < 1

严格 Wolfe Conditions 的叙述是：

f (x_{k} + α p_{k}) \leq f (x_{k}) + c_{1} α \nabla f_{k}^{T} p_{k} | | \nabla f (x_{k} + α_{k} p_{k})^{T} p_{k} | | \geq c_{2} | | \nabla f_{k}^{T} p_{k} | |, 0 < c_{1} < c_{2} < 1

其较于非严格 Wolfe Conditions 加上了

ϕ^{'} (α_{k})

必须为正的限定。

【Numerical Optimization】2 线搜索算法 PART 1（Jorge Nocedal 学习笔记）

且需要注意的是，对于所有平滑且取值有界的目标函数 $f$ 都能找到满足（strong） Wolfe Conditions 的步长 $α_{k}$ （证明略）
故可以看出来 Wolfe Conditions 具有广义尺度不变性，即将 $f$ 乘以一个常数或将 $f$ 进行尺度变换不会改变 Wolfe Conditions 寻找的结果

1.2 Goldstein 条件 The Goldstein Conditions

其完整表达为：

f (x_{k}) + (1 - c) α_{k} \nabla f_{k}^{T} p_{k} \leq f (x_{k} + α_{k} p_{k}) \leq f (x_{k}) + c α \nabla f_{k}^{T} p_{k}, 0 < c < \frac{1}{2}

前一个不等式控制步长长度使其不至于太短（以致效率过低），后一个不等值控制步长使其不至于超出

f

在

p_{k}

方向上的下降区间

【Numerical Optimization】2 线搜索算法 PART 1（Jorge Nocedal 学习笔记）

Goldstein 条件常用于 Newton type 算法，而不太使用于 Quasi-Newton type 算法

1.3 回溯算法 Backtracking

根据上述两个条件，可以看出仅限定 $α_{k}$ 在 $f$ 的 $p_{k}$ 方向上的下降区间内是不足以促成一个成功的算法的，还需要对其收敛效率进行规定，故上述条件都有两个限定。
然而使用回溯算法便可以省略有关效率的那个限定条件，其算法流程如下：

Choose $\bar{α} > 0, ρ \in (0, 1), c \in (0, 1)$ ; Set $α \leftarrow \bar{α}$
repeat until $f (x_{k} + α p_{k}) \leq f (x_{k}) + c α \nabla f_{k}^{T} p_{k}$
$α \leftarrow ρ α$
end(repeat)
Terminate with $α_{k} = α$

其中 $\bar{α}$ 的初值取法如下：

Newton and Quasi-Newton: $\bar{α} = 1$
其他算法的 $\bar{α}$ 的取值各不相同

其中的收缩系数 $ρ$ 可在每步迭代后进行变动，只要满足 $0 < ρ_{l o} < ρ_{h i} < 1$ 即可

这种算法很适合 Newton，但是不那么适用于 Quasi-Newton 与 Conjugate gradient 算法

2. 线搜索算法的收敛性

可证明，其他算法和 steepest descent algorithm 一样可以具有全局收敛性（虽然实现收敛的路径不同）

证明略

3. 收敛率 Rate of convergence

一个好的算法，需要满足下面两个条件：

严格的全局收敛保证
收敛速度快

但是这两个需要相互权衡，譬如: steepest descent method 具有极佳的全局收敛保证，但收敛速度慢；而纯 Newton method 收敛速度快，但有时可能达不到全局收敛。
故为了检验算法的全局收敛性，需要引入一个量“收敛率”。

在正式讨论各类算法的收敛率之前，首先引入另外两个小概念，方便后面叙述：
有两个迭代点 $x_{k + 1}, x_{k}$ ，最优收敛点 $x^{*}$ ，若存在实数 $q > 0$ 满足：

lim_{k \to \infty} \frac{| | x_{k + 1} - x^{*} | |}{| | x_{k} - x^{*} | |} = q

若：

$q \in (0, 1)$ ，线性收敛
$q = 0$ ，超线性收敛

3.1 steepest descent 的收敛率

首先我们假设一个典型的二次目标函数：

f (x) = \frac{1}{2} x^{T} Q x - b^{T} x \nabla f (x) = Q x - b

其中 Q 对称正定，其最佳收敛点为

x^{*}

，即有

\nabla f (x^{*}) = 0

在此算法中

p_{k} = - \nabla f_{k}

，设步长为

α_{k}

，则有：

f (x_{k} - α \nabla f_{k}) = \frac{1}{2} (x_{k} - α \nabla f_{k})^{T} Q (x_{k} - α \nabla f_{k}) - b^{T} (x_{k} - α \nabla f_{k})

使得上式等于 0，可以得到步长推断式：

α_{k} = \frac{\nabla f_{k}^{T} \nabla f_{k}}{\nabla f_{k}^{T} Q \nabla f_{k}}

这样就得到了迭代方程：

x_{k + 1} = x_{k} - (\frac{\nabla f_{k}^{T} \nabla f_{k}}{\nabla f_{k}^{T} Q \nabla f_{k}}) \nabla f_{k}

使用下式量化收敛率，即计算所得值和理想值之间的差距：

\frac{1}{2} | | x - x^{*} | |_{Q}^{2} = f (x) - f (x^{*})

根据上面的讨论可以严格推导 steepest descent method 的收敛率推导式：

| | x_{k + 1} - x^{*} | |_{Q}^{2} = 1 - \frac{(\nabla f_{k}^{T} \nabla f_{k})^{2}}{(\nabla f_{k}^{T} Q \nabla f_{k}) (\nabla f_{k}^{T} Q^{- 1} \nabla f_{k})} | | x_{k} - x^{*} | |_{Q}^{2}

然而，这个推倒式太难计算了，所以给出了一些计算的替代方案：

当 $f$ 为严格二次凸函数时：
定义不等式：
$| | x_{k + 1} - x^{*} | |_{Q}^{2} \leq (\frac{λ_{n} - λ_{1}}{λ_{n} + λ_{1}})^{2} | | x_{k} - x^{*} | |_{Q}^{2}$
其中 $0 < λ_{1} \leq λ_{2} \leq . . . \leq λ_{n}$ 是 $Q$ 的特征值
可以看出，当所有特征值相等时（即 $Q = I$ 时）， $\nabla f_{k}$ 的形状是圆形，且 $p_{k}$ 直指全局收敛点；随着 $κ (Q) = \frac{λ_{n}}{λ_{1}}$ 的增大，其轮廓越来越椭圆，且路径越来越曲折。

【Numerical Optimization】2 线搜索算法 PART 1（Jorge Nocedal 学习笔记）

当 $f$ 仅仅是二次连续可微：
$r \in (\frac{λ_{n} - λ_{1}}{λ_{n} + λ_{1}}, 1) f (x_{k + 1}) - f (x^{*}) \leq r^{2} [f (x_{k}) - f (x^{*})]$

这显示出 steepest descent 算法在某些情况下（通常在 $κ (Q)$ 很大的情况下），可能会非常非常慢。

3.2 Newton’s method

其 $p_{k}$ 遵循下式：

p_{k}^{N} = - \nabla^{2} f_{k}^{- 1} \nabla f_{k}

但需要注意的是，在上式中有一个限定条件——

\nabla^{2} f_{k}

必须是正定的，才能保证

p_{k}

指向下降方向。

假定 $f$ 二次可微，那么其 Hessian 矩阵 $\nabla^{2} f (x)$ Lipschitz 连续，x* 是最佳点（在 x* 附近开区间内 $\nabla^{2} f$ 连续且 $\nabla f (x^{*}) = 0$ 且 $\nabla^{2} f (x^{*})$ 正定）。迭代式为 $x_{k + 1} = x_{k} + p_{k}$ ，且 $p_{k}$ 的方法为 Newton 法，则：

如果初始点 $x_{0}$ 距离 $x^{*}$ 足够近，那么序列在 $x^{*}$ 处收敛
其 { $x_{k}$ } 的收敛率是二次的
梯度序列 { $| | \nabla f_{k} | |$ } 二次收敛于 0

上述证明略。

但上面的定量非常棒棒，主要是能够递推出下列优厚性质：
当使用 Newton’s method 递推得到 $p_{k}$ 时：

对于所有 k， $α_{k}$ 都可通过 Wolfe/Goldstein conditions 的检验（即对于 Newton’s method 可以直接使用 $α_{k}$ 作为步长）
如果还满足 $lim_{k \to \infty} \frac{| | \nabla f_{k} + \nabla^{2} f_{k} p_{k} | |}{| | p_{k} | |} = 0$ ，那么对于所有 k 来说， $| | x - x^{*} | |_{Q}^{2} = 0$
利用线搜索法时， $α_{k} = 1$ 对于所有 k 局部二次收敛

3.3 Quasi-Newton method

其 $p_{k}$ 推导式为：

p_{k} = - B_{k}^{- 1} \nabla f_{k}

其中

B_{k}

的推导方法有 SR1，BFGS 等。其步长类似 Newton’s method，先初定为

α = 1

，如果其满足 Wolfe conditions 那么就接受这个初定值。

假定 $f : R^{n} \to R$ 中二次连续可微，迭代方式为 $x_{k + 1} = x_{k} + α_{k} p_{k}$ ，其中保证 $p_{k}$ 指向下降方向并且 $α_{k}$ 满足 Wolfe conditions( $c_{1} \leq 0.5$ )。如果序列 $x_{k}$ 收敛于 $x^{*}$ ，即 $\nabla f (x^{*}) = 0$ 且 $\nabla^{2} f (x^{*})$ 正定，这时如果寻找方向满足：

lim_{k \to \infty} \frac{| | \nabla f_{k} + \nabla^{2} f_{k} p_{k} | |}{| | p_{k} | |} = 0

那么：

对于大于指定值 $k_{0}$ 的所有 k 来说， $α_{k} = 1$ 全部可行
如果 $α_{k} = 1$ ，那么对于所有 $k > k_{0}$ ， $x_{k}$ 超线性收敛于 $x^{*}$

另外需要注意的是：

lim_{k \to \infty} \frac{| | (B_{k} - \nabla^{2} f (x^{*})) p_{k} | |}{| | p_{k} | |} = 0

是 Quasi-Newton 超线性收敛的充要条件（当

B_{k}

不收敛于

\nabla^{2} f (x^{*})

时也行，因为

B_{k}

会随

p_{k}

的迭代越来越靠近

\nabla^{2} f_{k}

）（证明略）

【Numerical Optimization】2 线搜索算法 PART 1（Jorge Nocedal 学习笔记）

1. 步长 Step Length

1.2 Wolfe 条件 The Wolfe Conditions

1.2 Goldstein 条件 The Goldstein Conditions

1.3 回溯算法 Backtracking

2. 线搜索算法的收敛性

3. 收敛率 Rate of convergence

3.1 steepest descent 的收敛率

3.2 Newton’s method

3.3 Quasi-Newton method

相关推荐