逻辑回归算法是分类算法,名字虽然叫回归,但逻辑回归算法实际上是一种分类算法,它适用于标签y取值离散的情况
在分类问题中,我们尝试预测的是结果是否属于某一个类
- 判断一封电子邮件是否是垃圾邮件;
- 判断一次金融交易是否是欺诈;
- 判断肿瘤是恶性还是良性;
规律:结果可以分为有限个类别的情况
逻辑回归模型的假设是:hθ(x)=g(θTx)其中,X代表特征向量,θ代表参数,g代表**函数,一个常用的**函数为S形函数(Sigmoid function),公式为:g(z)=1+e(−z)1
hθ(x)的作用是:
对于给定的输出变量,根据选择的参数计算输出变量等于1的可能性,即:
P(y=1∣x;θ)=hθ(x)
P(y=0∣x;θ)=1−hθ(x)
P(y∣x;θ)=hθ(x)y(1−hθ(x))(1−y)
公式解释:
如果对于给定的x,通过已经确定的参数计算得出hθ(x)=0.7则表示y有70%的几率为正类,相应地y为负责的几率为1-0.7=0.3
得到这样一个代价函数以后,我们便可以用梯度下降算法来求损失函数的最小值
θj:=θj−α∂θj∂J(θ)
θj:=θj−am1i=1∑m((hθ(xi)−y(i))x(i))

问题1:带正则化项的LR损失函数怎么写?
J(θ)=m1i=1∑m[−y(i)log(hθ(x(i)))−(1−y(i))log(1−hθ(x(1)))]+2mλj=1∑nθj2
问题2:带正则化项的LR参数更新公式怎么写?
θj:=θj−a[m1i=1∑m(hθ(x(i))−y(i))xj(i)+mλθj]
误差的表示方法
Acc=total(真阳性+假阳性+真阴性+假阴性)真阳性+真阴性
准确率的局限性:类偏斜或者说数据不平衡

Precision=TP+FPTPPecall=TP+FNTP
F12=P1+R1
用一个F1值来综合评估精确率和召回率,它是精确率和召回率的调和均值.当精确率和召回率都高时,F1值也会高
有时候我们对精确率和召回率并不是一视同仁,我们用一个参数β来度量两者之间的关系.
Fβ=β2∗P+R(1+β)2∗P∗R
如果β>1,召回率有更大影响,
如果β<1,精确率有更大影响,
如果β=1,召回率和精确率影响力相同,和F1形式一样
TPR=TP+NFTP灵敏度(真阳率,召回率),识别的正例比例占所有实际正例的比例