贝叶斯与逻辑回归

摘要

贝叶斯与逻辑回归
首先回顾一下贝叶斯和逻辑回归

贝叶斯

i=1np(xiy=1)p(y=1)i=1np(xiy=0)p(y=0)>0\quad \prod_{i=1}^n p(x_i|y=1)p(y=1) \quad - \quad \prod_{i=1}^n p(x_i|y=0)p(y=0) \quad > 0
满足上述表达式的样本xRnx \in R^n 为正样本,否则的话为负样本

逻辑回归

i=1nwixiw0>0\sum_{i=1}^{n} w_ix_i - w_0 > 0
满足上述表达式的样本为正样本,否则的话为负样本
下面的题满足的前提条件为:
yy ~ Bernouuli(ϕ)Bernouuli(\phi)
xy=0x|y=0~N(μ0,σ02)N(\mu_0,\sigma_0^2)
xy=1x|y=1~N(μ1,σ12)N(\mu_1,\sigma_1^2)

question 1

贝叶斯与逻辑回归
σ0=σ1\sigma_{0} = \sigma_{1}
正样本可以表达为:
i=1n[lnp(xiy=1)lnp(xiy=0)]>lnp(y=0)lnp(y=1)\sum_{i=1}^n[ln p(x_i|y=1) - lnp(x_i|y=0)] > lnp(y=0) - lnp(y=1)
=>
i=1n[(xiμ1)2/(2σ12)ln((2Π)0.5σ1)]+(xiμ0)2/(2σ02)+ln((2Π)0.5σ0)]>lnp(y=0)ln(y=1)\sum_{i=1}^n[-(x_i - \mu_1)^2/(2\sigma_1^2) - ln((2\Pi)^{0.5}\sigma_1)] + (x_i - \mu_0)^2/(2\sigma_0^2) + ln((2\Pi)^{0.5}\sigma_0)] > lnp(y=0) - ln(y=1)
=>
i=1n(μ1/σ12μ0/σ02)xi>lnp(y=0)lnp(y=1)+i=1n(μ12/σ1μ02/σ0)\sum_{i=1}^n(\mu_1/\sigma_1^2 - \mu_0/\sigma_0^2)x_i > lnp(y=0)-lnp(y=1)+\sum_{i=1}^n(\mu_1^2/\sigma_1 - \mu_0^2/\sigma_0)

在问题一的条件下,连续特征的朴素贝叶斯分类起可以写作是特征值的线形加权组合,所以可以看作是本质上的逻辑回归分类器。

question 2

贝叶斯与逻辑回归
正样本可以表达为:
i=1n[lnp(xiy=1)lnp(xiy=0)]>lnp(y=0)lnp(y=1)\sum_{i=1}^n[ln p(x_i|y=1) - lnp(x_i|y=0)] > lnp(y=0) - lnp(y=1)
=>
i=1n[(xiμ1)2/(2σ12)ln((2Π)0.5σ1)]+(xiμ0)2/(2σ02)+ln((2Π)0.5σ0)]>lnp(y=0)ln(y=1)\sum_{i=1}^n[-(x_i - \mu_1)^2/(2\sigma_1^2) - ln((2\Pi)^{0.5}\sigma_1)] + (x_i - \mu_0)^2/(2\sigma_0^2) + ln((2\Pi)^{0.5}\sigma_0)] > lnp(y=0) - ln(y=1)
=>
i=12[(1/2σ021/2σ12)xi2+(μ1/σ12μ0/σ02)xi]>lnp(y=0)lnp(y=1)+i=1n(ln(2Πσ1)ln(2Πσ0)+i=1n(μ12/σ1μ02/σ))\sum_{i=1}^2[(1/2\sigma_0^2-1/2\sigma_1^2)x_i^2+(\mu_1/\sigma_1^2-\mu_0/\sigma_0^2)x_i]>lnp(y=0)-lnp(y=1)+\sum_{i=1}^n(ln(\sqrt{2\Pi}\sigma_1)-ln(\sqrt{2\Pi}\sigma_0)+\sum_{i=1}^n(\mu_1^2/\sigma_1-\mu_0^2/\sigma_))
上面表示,在σi,0!=σi,1\sigma_{i,0} != \sigma{i,1}时,连续特征的朴素贝叶斯分类判别公式不能写成特征值的线形加权组合(与xi2x_i^2有关),所以不能够说是逻辑回归,

question 3

贝叶斯与逻辑回归
负样本可以表达为:
i=1,j=2,i!=jnp(xi,xjy=0)p(y=0)i=1,j=2,i!=jnp(xi,xjy=1)p(y=1)>0\prod_{i=1,j=2,i!=j}^n p(x_i,x_j|y=0)p(y=0)-\prod_{i=1,j=2,i!=j}^n p(x_i,x_j|y=1)p(y=1)>0
=>
i=1,j=2,i!=jnlnp(xi,xjy=0)i=1,j=1,i!=jnlnp(xi,xjy=1)>lnp(y=1)lnp(y=0)\sum_{i=1,j=2,i!=j}^nlnp(x_i,x_j|y=0) - \sum_{i=1,j=1,i!=j}^nlnp(x_i,x_j|y=1)>lnp(y=1)-lnp(y=0)
=>
i=1,j=2,i!=jnσ12[μ202μ212+2x2(μ21μ20)]+σ22[μ102]μ112+2x1(μ11μ10)+2ρσ1σ2[(μ20μ21)x1+(μ10μ11)x2+μ11μ21μ10μ20]/2(1ρ2)σ12σ22>lnp(y=1)lnp(y=0)\sum_{i=1,j=2,i!=j}^n\sigma1^2[\mu_{20}^2-\mu_{21}^2+2x_2(\mu_{21}-\mu_{20})]+\sigma_2^2[\mu_{10}^2]-\mu_{11}^2+2x_1(\mu_{11}-\mu_{10})+2\rho\sigma_1\sigma_2[(\mu_{20}-\mu_{21})x_1+(\mu_{10}-\mu_{11})x_2+\mu_{11}\mu_{21}-\mu_{10}\mu_{20}]/2(1-\rho^2)\sigma_1^2\sigma_2^2>lnp(y=1)-lnp(y=0)
=>
由上述的表示可以看出,非朴素的贝叶斯分类器可以简单的看作是逻辑回归

Conclude

在推导逻辑回归的时候,我们并没有假设类内样本是服从高斯分布的,因而GDA只是逻辑回归的一个特例,其建立在更强的假设条。故两者效果比较:
a.逻辑回归是基于弱假设推导的,则其效果更稳定,适用范围更广
b.数据服从高斯分布时,GDA效果更好
c.当训练样本数很大时,根据中心极限定理,数据将无限逼近于高斯分布,则此时GDA的表现效果会非常好