逻辑斯谛(Logistic)回归

Logistic回归模型

logistic分布

逻辑斯谛分布

设X是连续随机变量,X具有下列分布函数和密度函数
F(x)=P(Xx)=11+e(xμ)/γ
f(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2
密度函数和分布函数如图所示
逻辑斯谛(Logistic)回归
分布函数图形是一条S形曲线。该曲线以点(μ,12)位中心对称,即满足
F(x+μ)12=F(x+μ)+12
曲线在中心附近增长速度较快,两端较慢。
形状参数γ的值越小,曲线在中心附近增长越快。

二项逻辑回归模型

二项逻辑回归模型是如下的条件概率分布

P(Y=1|x)P(Y=0|x)=exp(wx)+b1+exp(wx+b)(6.5)=11+exp(wx+b)(6.6)

一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率就是p1p,该事件发生的对数几率(log odds)或logit函数是
logit(p)=logp1p
对逻辑斯谛回归而言,由式(6.5)与式(6.6)得
logP(Y=1|x)1P(Y=1|x)=wx
逻辑回归模型中,输出Y=1的对数几率是输入x的线性函数。

模型参数估计

极大似然估计
P(Y=1|x)=π(x),P(Y=0|x)=1π(x)
似然函数为
i=1N[π(xi)]yi[1π(xi)]1yi
对数似然函数为

L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))]

对L(w)求极大值,得到w的估计值。
这样,问题就变成了以对数似然函数为目标函数的最优化问题。
通常采用梯度下降(这里是上升,最大化对数似然函数)法及拟牛顿法

梯度下降法

L(w)w=i=1Nxi(yiπ(x)),其中π(x)=exp(wx)1+exp(wx)
设学习率为α,则梯度上升法的更新公式为
wj=wj+αi=1Nxi(yiπ(x))

多项逻辑斯谛回归

假设离散型随机变量Y的取值集合是1,2,...,K,那么多项逻辑斯谛回归模型是

P(Y=k|x)=exp(wkx)1+k=1K1exp(wkx),k=1,...,K1P(Y=K|x)=11+k=1K1exp(wkx)

sigmoid函数的推导

根据对数几率回归推导

逻辑斯谛(Logistic)回归

根据最大熵模型推导

http://blog.****.net/u012151283/article/details/77619799#t2
最大熵原理告诉我们,当在某些约束条件下选择统计模型时,需要尽可能选择满足这些条件的模型中不确定性最大的那个。
采用熵作为统计不确定性的度量,这个问题变为一个条件约束的问题。
在最大熵准则下,

p(x)=argp(x)maxH(x)s.t.Ep[fd(x)]=Ep˜[fd(x)],d=1,...,D

fi(x)为一组特征函数,而优化中约束的意义是这一组特征函数在某型p(x)下的均值等于其数上的均值。

使用拉格朗日方法可以得出一项重要结论,求其最大熵解等价于求一个对应指数形式分布的最大似解。

π(x)u=P(Y=u|X)
根据最大熵模型,有

π(x)v0v=1kπ(x)v=1i=1nx(i)jπ(x(i))u=i=1nf(u,y(i))x(i)j(for all u,j)

指数族分布

指数分布族是指可以表示为指数形式的分布。
p(y;η)=b(y)exp(ηTT(y)α(η))
其中,η为自然参数,T(y)为充分统计量。α(η)为归一化系数。当参数b,α,T都固定时,就定义了一个以η为参数的函数族。

逻辑回归假设y服从伯努利分布,

p(y;ϕ)=ϕy(1ϕ)1y=exp(ylogϕ+(1y)log(1ϕ))=exp(log(ϕ1ϕ)y+log(1ϕ))

η=log(ϕ1ϕ),得到ϕ=11+eη。这就是逻辑回归的**函数。

逻辑回归建模预测y|x,并假设y|x服从伯努利分布,所以只需知道p(y|x)
其次需要一个线性模型,即p(y|x)=f(wx)
然后通过最大熵原则推出f,就是sigmoid函数。

为什么用对数损失函数

如果用平方损失函数,平方损失函数关于参数是非凸的。
对数损失函数是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解。

逻辑回归优点

1、它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题。

2、它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用。

3、对率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。

参考资料

《统计学习方法》第6章
《计算广告》第10章
指数分布族(The Exponential Family)与广义线性回归(Generalized Linear Model GLM)
逻辑回归的目标函数(损失函数)是凸函数吗?有没有最优解?