前言
双旦有点放飞自我,顺便回家了一趟,是该收收心继续搞了,第二章里面内容很丰富,虽然看起来只有不到二十页。
基本形式
基本形式:
f(x)=w1x1+w2x2+w3x3+...+wdxd+b,
给定由d个属性描述的示例x=(x1;x2;...;xd),其中xi是i在第i个属性上的取值,线性模型试图学的一个通过线性组合来进行预测的函数
向量形式:
f(x)=wTx+b,通过求得wT和b确定模型。
通过w可以反映出各属性的重要性。
回归模型
1.线性回归
多元线性回归模型:对于数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid)
通过学的f(xi)=wTxi+b,使得f(xi)=yi(即预测值接近于真实值)
令x^=(w;b)
输入数据集S=
⎛⎝⎜⎜⎜⎜⎜x11x21⋮xm1x12x22⋮xm2x13x23⋱xm3⋯⋯⋮⋯x1dx2d⋮xmd111⎞⎠⎟⎟⎟⎟⎟
=
⎛⎝⎜⎜⎜⎜⎜xT1xT2⋮xTm⋮111⎞⎠⎟⎟⎟⎟⎟
标记:
y=(y1;y2;⋯;ym)
则有:
w^∗min=argminw^(y−Xw^)T(y−Xw^)
对w求极值,得到如下解:
w^∗min=(XTX)−1XTy
令
x^i=(xi;1)得到最线性回归模型:
f(x^i)=x^Ti(XTX)−1XTy
对数线性回归:
lny=wT+b
广义线性模型:对于单调可微函数
g(⋅)(联系函数),令
y=g−1(wTx+b)
2.对数几率回归(logistic regression)
对于二分类情况:在广义线性模型中,找到一个单调可微的函数将任务的真实标记y与线性回归模型的预测值联系起来。输出标记y∈{0,1},我们将线性回归的预测值转换为0/1值。
理想的“单位阶跃函数”:
f(n)=⎧⎩⎨0,0.5,1,z<0z=0z>0

sigmoid函数:将线性回归模型的输出结果转化为接近0或1的值,
y=11+e−z,即
y=11+e−(wTx+b),该式可变化为:
lny1−y=wTx+b
若将y视为样本的x作为正例的可能性,则1−y是其反例的可能性,两者的比值:y1−y,称为几率,反映了x作为正例的相对可能性。对数几率:lny1−y.
极大似然法估计w和b:
lnp(y=1|x)p(y=0|x)=wTx+b
则:
p(y=1|x)=ewTx+b1+ewTx+b,p(y=0|x)=11+ewTx+b
每个样本属于其真实标记的概率越大越好,为了求解方便,取对数似然:
l(w,b)=∑mi=1lnp(yi|xi,w,b),令β=(w,b),x^=(x;1),wTx+b=βTx^。
令p1(x^;β)=p(y=1|x^;β),p0(x^;β)=1−p(y=1|x^;β),
则l(w,b)可以重写为:p(yi|xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β).
则最小化l(w,b)=l(β)=∑mi=1(−yiβTx^i+ln(1+eβTx^i),通过梯度下降法或牛顿法可以求得最优解(梯度下降法和牛顿法下一次分享),于是我们得到:β∗=argβminl(β)
梯度下降法迭代公式:βt+1=βt−λ∂l(β)∂β,(其中λ人工设定)
牛顿法迭代公式:βt+1=βt−(∂2l(β)∂β∂βT)−1∂l(β)∂β