逻辑回归算法

一、逻辑回归与线性回归区别与联系

  • 区别

                     逻辑回归算法

  • 联系

                  把线性回归模型简写为

                                                      逻辑回归算法                              (3.2)

                  对y取对数,得到对数线性回归

                                                     逻辑回归算法

                 上式实际上是在试图让逻辑回归算法逼近y。虽然形式上是线性回归,但实质上已是在求取输入空间到输出空间的非线性函                     数映射。更一般地,可以得到以下广义线性模型

                                                    逻辑回归算法

                  这里另逻辑回归算法等于对数几率函数逻辑回归算法,可得到以下模型

                                                  逻辑回归算法

二、逻辑回归原理

       对数线性模型,对(3.2)式两边取对数得

                                           逻辑回归算法

           简化为以下形式

                                          逻辑回归算法                                                  (3.15)

         引入对数几率函数      逻辑回归算法

         将对数几率函数带入(3.15)式,得

                                逻辑回归算法                                            (3.18)

                                逻辑回归算法                                               (3.18.1)

          两边取对数,转化为对数线性回归模型,得

                             逻辑回归算法

          概率模型           逻辑回归算法

          有(3.18)式转换可得,

                           逻辑回归算法,                                             (3.23)

                           逻辑回归算法                   (3.24)

三、损失函数 

         逻辑回归跟线性回归不同,采用的损失函数是极大似然函数。     

         逻辑回归模型最大化“对数似然”

                          逻辑回归算法                                                      (3.25)

         令逻辑回归算法逻辑回归算法,则逻辑回归算法可简写成逻辑回归算法.再令逻辑回归算法

 逻辑回归算法,则式(3.25)中的似然项可重写为

                              逻辑回归算法                      (3.26)

      当逻辑回归算法逻辑回归算法,即可获得式(3.23)和(3.24)

          (3.23)式用逻辑回归算法简写,    逻辑回归算法

           等式两边取对数

                     逻辑回归算法

           (3.24)式用逻辑回归算法简写, 逻辑回归算法

            等式两边取对数逻辑回归算法

      由以上可得,我们将(3.26)带入(3.25),可得到最小化公式

                           逻辑回归算法           (3.27)

       令逻辑回归算法逻辑回归算法,即可得到以上推导过程,式(3.27)为最小化,(3.25)为最大化,

所以上式加了个负号。

              代价函数为:逻辑回归算法

四、正则化与评估指标

  • 正则化

           包括L1范数和L2范数。

            首先针对L1范数,正则化项为逻辑回归算法,目标函数如下

                                                  逻辑回归算法

            当采用梯度下降方式来优化目标函数时,对目标函数进行求导,正则化项导致的梯度变化当wj>0时取1,

    当wj<0时取-1.

             L2范数,正则化项为逻辑回归算法,目标函数如下

                                               逻辑回归算法

             同样对它求导,正则化项导数为逻辑回归算法

  • 评估指标

       ROC曲线

               ROC曲线的横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR) 当测试集中的正负样

        本的分布变化的时候,ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序,依次将

        “Score”值作为阈值 ,当测试样本属于正样本的概率 大于或等于这个阈值时,认为它为正样本,否则为负样本。

       计算出ROC曲线下面的面积,就是AUC的值。 介于0.5和1.0之间,越大越好。

      Kappa statics 
              Kappa值,即内部一致性系数(inter-rater,coefficient of internal consistency),是作为评价判断的一致性程度

       的重要指标。取值在0~1之间。Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者一致性一般;Kappa<0.4两

       者一致性较差。 

      Mean absolute error 和 Root mean squared error 
              平均绝对误差和均方根误差,用来衡量分类器预测值和实际结果的差异,越小越好。

      Relative absolute error 和 Root relative squared error 
             相对绝对误差和相对均方根误差,有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值

      的比重来反映误差大小。                                     

五、优缺点

                         逻辑回归算法

六、样本不均衡问题解决方法

          样本不均衡也称为类别不均衡,即每个类别的数据量是不一样的。

          假设有三个类别,分别为A,B,C。在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%。

  最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合。

          解决方法:

          1、产生新样本

               过采样:将稀有类别的样本进行复制,通过增加此稀有类样本的数量来平衡数据集;

               欠采样:从丰富类别的样本中随机选取和稀有类别相同数目的样本,通过减少丰富类的样本量来平衡数据集。

          2、修改权重

               在训练分类器时,为稀有类别的样本赋予更大的权值,为丰富类别的样本赋予较小的权值。

七、sklearn.linear_model.LogisticRegression

    逻辑回归算法

逻辑回归算法

参考链接:https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression