强对偶性的证明
本博客是参考资料的笔记整理:
https://www.bilibili.com/video/BV1dJ411B7gh?p=11
1. 预备知识
定义 1 凸集:某点集D是凸集,是指对于任意两点x1, x2∈D 和0≤λ≤1,有:
x=λx1+(1−λ)x2∈D(1)
以下是凸集的例子

定理 1 分离超平面定理:假设两个不相交的凸集 C 和 D,即C∩D=∅,则存在
向量a=0和常数b,有
{aTx≤baTx≥b∀x∈C∀x∈D(2)

Proof of 定理1:
定义 2:点集的 C 和 D 的之间的距离为:
dist(C,D)=u∈C,v∈Dinf∥u−v∥2(3)
假设c∈C,d∈D能达到此最小距离,即dist(C,D)=∥c−d∥2,令a=c−d,b=2∥c∥2−∥d∥2(实际上,(c−d)Tx−2∥c∥2−∥d∥2=0是点 c 和点 d 连线的“中垂面”),下面证明:①对于任意u∈C,有aTu−b≥0; ②对于任意v∈D,有aTv−b≤0.
反证法:假设存在一个u∈C,使
aTu−b<0(c−d)Tu−2∥c∥2−∥d∥2<0(c−d)T(u−21(c+d))<0(c−d)T((u−c)+21(c−d))<0(c−d)T(u−c)+21∥c−d∥2<0
因为−21∥c−d∥2≥0,所以(c−d)T(u−c)<0。假设另有一点p在 u和c的连线上,即p=λu+(1−λ)c,其中 0≤λ≤1。根据 C 是凸集,则有p∈C。下面计算∥p−d∥2 :
∥p−d∥2=∥λu+(1−λ)c−d∥2=∥(c−d)+λ(u−c)∥2=∥c−d∥2+2λ(c−d)T(u−c)+λ2∥u−c∥2=∥c−d∥2+λ[2(c−d)T(u−c)+λ∥u−c∥2]
分析(c−d)T(u−c)<0,当 λ 取一个很小的正数时,即满足
λ<−∥u−c∥22(c−d)T(u−c)(4)
一定有:∥p−d∥2<∥c−d∥2且p∈C,这与定义 2 矛盾,故①得证。而②的证明过程,同理。■
定理2:若 c 是一个非零向量,即∥c∥2>0,即则对任意 ε>0,存在一个向量 x 满足: ①∥x∥2≤ε ;②cTx>0.
Proof of 定理2: 取x=∥c∥2εc,则∥x∥2=ε,且cTx=ε>0,同理也存在一个向量 x,使①∥x∥2≤ε,②cTx>0. ■
2. 对偶问题
原问题(Prime Problem):
s.t. wminf(w)gi(w)≤0,i=1,2,…,Khj(w)=0,j=1,2,…,M(5)
对偶问题(Dual Problem):
先定义拉格朗日函数
L(w,α,β)=f(w)+i=1∑Kαigi(w)+j=1∑Mβjhj(w)(6)
由拉格朗日函数推导出对偶问题的形式:
α,βmaxθ(α,β)=winfL(w,α,β) s.t. αi≥0,i=1,2,…K(7)
定理3:若W∗是原问题的解,(α∗,β∗)是对偶问题的解,则有:
KaTeX parse error: Can't use function '$' in math mode at position 2:
$̲\theta\left(\al…
Proof of 定理3:
θ(α∗,β∗)=winfL(w,α∗,β∗)≤L(w∗,α∗,β∗)=f(w∗)+i=1∑Kαi∗gi(w∗)+j=1∑Mβj∗hj(w∗)≤f(w∗)
■
定义3(凸函数):f(w)是凸函数是指对 ∀w1,w2,∀λ∈[0,1],有:
f(λw1+(1−λ)w2)≤λf(w1)+(1−λ)f(w2)(9)

3. 强对偶性的证明
定理4(强对偶定理):对于f(w),gi(w),hj(w),若满足:
①f(w)是凸函数;
②gi(w)是凸函数;
③hj(w)是仿射函数,即hj(w)=cjTw+d;
④slater条件:存在一个w使gi(w)<0和hj(w)=0;
⑤w的取值范围D是开集,即若 w∈D 则存在邻域N(w,ε)∈D;
⑥w的取值范围D是凸集。
则有:f(w∗)=θ(α∗,β∗).
Proof of 强对偶定理:
构造点集:
A={(u,v,t)∣∃w∈D, 使 gi(w)≤ui,hj(w)=vi,f(w)≤t}(10)
定义:
g(w)=⎣⎢⎢⎢⎡g1(w)g2(w)⋮gK(w)⎦⎥⎥⎥⎤,h(w)=⎣⎢⎢⎢⎡h1(w)h2(w)⋮hM(w)⎦⎥⎥⎥⎤(11)
注意:①若w∈D,则(g(w),h(w),f(w))∈A(证明:至少可以使定义中等号成立);②若w∈D,则(+∞,h(w),+∞)∈A(证明:任何数都小于正无穷)。
引理1:若 D 是凸集,gi(w)是凸函数(i=1,2,…,K),hj(w)是仿射函数,即hi(w)=cw+d,f(w)是凸函数,则 A 是凸集.
证明:
设(u1,v1,t1),(u2,v2,t2)∈A,我们要证当0≤λ≤1时,有
(λu1+(1−λ)u2,λv1+(1−λ)v2,λt1+(1−λ)t2)∈A(12)
①因为(u1,v1,t1)∈A,所以∃w1∈D,使gi(w1)≤ui,hj(w1)=vi,f(w1)≤t;同理(u2,v2,t2)∈A,所以 ∃w2∈D,使gi(w2)≤ui,hj(w2)=vi,f(w2)≤t.
②设w′=λw1+(1−λ)w2,因为D是凸集,所以w′∈D。由于gi(w)是凸函数,故:gi(w′)≤λgi(w1)+(1−λ)gi(w2)≤λu1,i+(1−λ)u2,i,同理有f(w′)≤λt1+(1−λ)t2.
③hj(w′)=cw′+d
=λ(cw1+d)+(1−λ)(cw2+d)
=λhj(w1)+(1−λ)hj(w2)
=λv1,j+(1−λ)v2,j
综上①②③,引理1得证. ■
根据式子(10)的定义,我们有原问题的解
f(w∗)=(0,0,t)∈Amint(13)
定义另一个点集B={(0,0,s)∣s<f(w∗)},可以证明 B 也是凸集,且A∩B=∅.
根据定理1(分离超平面定理),存在(α,β,η)使得:①若(u,v,t)∈A,则αTu+βTv+ηt≥b;②若(u,v,t)∈B,则αTu+βTv+ηt<b。由于此时,u=0和v=0,所以−ηt<b.
引理2:若对∀(u,v,t)∈A,有αTu+βTv+ηt≥b,则有
α=[α1,α2,…,αK]≽0,η≥0(14)
Proof:
假设某个αi<0,则可以取相应ui=+∞,此时(u,v,t)仍然属于A,但αTu+βTv+ηt=−∞,这与αTu+βTv+ηt≥0矛盾。同理可证η≥0。
根据 A 的定义和①可得,对∀w∈D,有∑i=1Kαigi(w)+∑j=1Mβjhj(w)+ηf(w)≥b;根据 B 的定义和②的−ηt<b可得,ηf(w∗)≤b。因此有:
i=1∑Kαigi(w)+j=1∑Mβjhj(w)+ηf(w)≥b≥ηf(w∗)(15)
下面分两种情况讨论:
情况1:η=0,此时有
f(w∗)≤i=1∑Kηαigi(w)+j=1∑Mηβjhj(w)+f(w)=L(w,ηα,ηβ)(16)
由于w是任意的,因此有
f(w∗)≤winfL(w,ηα,ηβ)=θ(ηα,ηβ)(17)
由于α≻0,η>0,所以ηα≻0,满足对偶问题的限制条件,因此有:
f(w∗)≤θ(α∗,β∗)(18)
在根据定理3,有θ(α∗,β∗)≤f(w∗),所以f(w∗)=θ(α∗,β∗),得证。
情况2:η=0,此时对∀w∈D,有
i=1∑Kαigi(w)+j=1∑Mβjhj(w)≥0(19)
根据定理4中的条件④(slater条件),∃w使gi(w)<0,hj(w)=0,这可以推出αi=0,因此公式(19)变为
j=1∑Mβjhj(w)≥0, 或记为 βTh(w)≥0(20)
根据定理4中的条件③,h(w)=cw+d,代入得:
βTh(w)≥0βTcw+βTd≥0(21)
记P=βTc,q=βTd,则式子(21)改写为:
Pw+q≥0(22)
注意公式(22)对所有的w∈D都成立。根据条件④ (slater条件),∃w 使 cw+d=0,从而Pw+q=0.
下面证明,存在一个 w′=w+Δw,其中Δw在w的一个领域N(0,ε)中,使Pw′+q<0。
证明:根据定理1,有β=0,否则(α,β,η)都为0,与分离超平面定理矛盾。则有P=βTc=0;根据定理2,存在一个Δw满足∥w∥2<ε且PΔw<0。因此,w′=w+Δw∈N(0,ε)。
根据定理4中的条件⑤,w′∈D,同时,
Pw′+q=P(w+Δw)+q=(Pw+q)+PΔw=PΔw<0(23)
这与式子(22)矛盾,所以情况2不成立/不存在。
定理4 强对偶定理得证. ■