回归
首先理解回归与分类的区别:回归的y值是针对连续值的,而分类中的y值则为离散值。
下面介绍几种重要的回归
线性回归
通常回归可以写成这样的形式(两个变量):hθ(x)=θ0+θ1x1+θ2x2
而对于多变量的情况,则可以写成向量形式:hθ(x)=∑i=0mθixi=θTx
对于回归,我们最常用的方法是最小二乘,下面通过极大似然估计来解释最小二乘。
对于回归函数:y(i)=θTx(i)+ε(i)
我们假设误差ε(i)(1≤i≤m)是独立同分布的,且服从均值为0,方差为σ2的高斯分布。
所以有:p(ε(i))=12π√σexp(−(ε(i))22σ2)
p(y(i)∣∣x(i);θ)=12π√σexp(−(y(i)−θTx(i))22σ2)
L(θ)=∏i=1mp(y(i)∣∣x(i);θ),即:L(θ)=∏i=1m12π√σexp(−(y(i)−θTx(i))22σ2)
对数似然函数为:

目标函数为:J(θ)=12∑i=1m(y(i)−θTx(i))2
下面求解θ:
目标函数:J(θ)=12∑i=1m(y(i)−θTx(i))2=12(Xθ−y)T(Xθ−y)
其中M个N维样本组成矩阵X:
–X的每一行对应一个样本,一共有M个样本
–X的每一列对应一个特征,一共有N个特征,还有一维常数项,全为1.
计算梯度:

参数的解析式:θ=(XTX)−1XTy
若XTX不可逆或者为了防止过拟合,需要增加λ扰动:θ=(XTX+λI)−1XTy
说明:XTX是半正定的,则对于XTX+λI一定是正定的,从而XTX+λI可逆,则参数一定有解。
线性回归的正则项(防止过拟合):
目标函数为:J(θ)=12∑i=1m(y(i)−θTx(i))2
L1-正则项:J(θ)=12∑i=1m(y(i)−θTx(i))2+λ∑j=1n|θj|
L2-正则项:J(θ)=12∑i=1m(y(i)−θTx(i))2+λ∑j=1nθ2j
Elastic Net:
说明:对于线性回归,L1正则化就相当于岭回归,L2正则化就相当于岭回归。
logistic回归
Logistic/Sigmoid函数

hθ(x)=g(θTx)=11+e−θTx
g′(x)=(11+e−x)′=e−x(1+e−x)2,g′(x)=11+e−x∙e−x1+e−x=11+e−x∙(1−11+e−x)=g(x)(1−g(x))
Logistic回归参数估计
假设:P(y=1|x;θ)=hθ(x);P(y=0|x;θ)=1−hθ(x)
p(y|x;θ)=(hθ(x))y(1−hθ(x))1−y
似然函数:

对数似然:

对数线性模型
一个事件的几率odds,是指该事件发生的概率与不发生的概率的比值。
对数几率:logit函数
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1−hθ(x)

Logistic回归的损失函数yi∈{0,1}


Logistic回归的损失函数yi∈{−1,1}


广义线性模型GLM
y不再只是高斯分布,而是扩大为指数族中的任意分布;
变量x→g(x)→y,连接函数g单调可导。
如线性回归中g(z)=z;logistic回归中g(z)=11+e−z
Softmax回归
K分类,第k类的参数为θ⃗ k,组成二维矩阵θk×n
概率:p(c=k|x;θ)=exp(θTkx)∑l=1Kexp(θTlx),k=1,2⋯,K
似然函数:

对数似然:

随机梯度:∂J(θ)∂θk=(yk−p(yk|x;θ))x