Logistics回归模型
逻辑斯蒂回归模型定义
二项逻辑斯蒂回归模型是如下条件的概率分布:
记 为(w;b),记为(x,1)上述两式可写成:
假设有{X1,X2,X3…Xn}的样本,正例类别记为y=1,反例类别记为y=0;则Xi服从未知参数为p的伯努利分布,那么每个Xi的概率质量函数为:
其似然函数为:
取对数似然可得:
将
代入化简得:
以为变量,最大化该似然函数即可。
从几何角度看逻辑回归
以对一维的样本数据分类为例,样本点为X={1,2,3,4,5,6},对应的类别分别为Y={0,0,0,1,1,1},经过逻辑回归训练后的结果为:w=7.316 b=25.470 。
即
根据
带入和测试样例,求得P值:当P>0.5时将其判定为1(正例),否则判定为0(反例)。意义:
只看样本而不看样本类别时,样本X里的元素就是数轴上的6个点;而使用加上样例类别时,变成了二维面上的点,从X={1,2,3,4,5,6}和Y={0,0,0,1,1,1}到 (X,Y)={(1,0),(2,0),(3,0),(4,1),(5,1),(6,1)}, 此时,就是寻找一条线拟合(X,Y)的这些点,这条线就是函数
如下图:
此时该问题变成了线性回归问题,即寻找一条线,最大程度拟合(X,Y)={(1,0),(2,0),(3,0),(4,1),(5,1),(6,1)}这些点。此时为样本只有1个特征的例子,当样本点有两个特征时,可以转化为求一个柱面拟合上的所有点(该柱面的垂直投影形状为$y=\frac{et}{1+et} (X_{1},X_{2},…,X_{n},Y)$