无约束优化问题是机器学习中最普遍、最简单的优化问题
x∗=xminf(x),x∈Rn
梯度下降法推导
对于只有两个维度的函数f(x,y),如下图所示。

如果现在在P点,假设∣PP′∣=L,∠P′Px=θ,则由P到P′,函数的单位长度变化量为:
Lf(x0+Lcosθ,y0+Lsinθ)−f(x0,y0)
=Lf(x0+Lcosθ,y0+Lsinθ)−f(x0+Lcosθ,y0)+Lf(x0+Lcosθ,y0)−f(x0,y0)
=sinθLsinθf(x0+Lcosθ,y0+Lsinθ)−f(x0+Lcosθ,y0)+cosθLcosθf(x0+Lcosθ,y0)−f(x0,y0)
=sinθfy(x0,y0)+cosθfx(x0,y0)(L→0)
由柯西不等式:
<m,n>=∣∣m∣∣⋅∣∣n∣∣⋅cosθ
<m,n>2=∣∣m∣∣2⋅∣∣n∣∣2⋅cos2θ≤∣∣m∣∣2⋅∣∣n∣∣2
且只有当θ=0即两向量共线时等号成立。
令m=(sinθ,cosθ),n=(fy,fx),则
(sinθ⋅fy+cosθ⋅fx)2≤(sin2θ+cos2θ)(fy2+fx2)=fy2+fx2
"="成立的条件是两向量共线,即
cosθsinθ=fxfy
此时函数的单位长度变化量最大。
而cosθsinθ=fxfy意味着单位长度变化量最大的方向为梯度方向。
类比于有n个自变量的函数f(x1,x2……xn),其梯度为(∂x1∂f,∂x2∂f……∂xn∂f),则延梯度方向函数增长最快。
基于此原理,梯度下降法取梯度的反方向作为移动方向,延此方向函数下降最快。
牛顿法推导
初级版本

对于minf(x)来说,需要g(x)=f(x)′=0。
xn是第n个点的横坐标,我们需要求出g(x)=0时的横坐标。
首先对第n个点求切线为:
y−g(xn)=g(xn)′(x−xn)
令y=0得到x=xn−g(xn)′g(xn)
用f(x)′代替g(x),得:
xn+1=xn−f(xn)′′f(xn)′
高级版本

要求minf(x),
先将f(x)进行泰勒公式展开,得:
f(x)=f(xn)+f(xn)′(x−xn)+2!f(xn)′′(x−xn)2+……
将只保留有关x的项,得:
f(x)=2f(xn)′′x2+(f(xn)′−xnf(xn)′′)x+……
此时已将f(x)化为一个一元二次函数。
所以当此函数取最小值时的横坐标为:
xn+1=−2ab=−f(xn)′′f(xn)′−xnf(xn)′′=xn−f(xn)′′f(xn)′