[小白式机器学习（一）] logistic regression（LR）对数几率回归 / 逻辑回归公式推导

因为是傻瓜式教程，所以一定会非常详细！一些概念link到了Wiki的相应解释上。
欢迎捉虫~！

二分类和回归的关系

考虑表示的二分类或回归问题，其中是输入，是输出。
1. 在二分类中，的值取0或1，代表被分为正类或负类。在回归中，的取值为连续值。
2. 在线性回归模型中，，此处为参数向量，为输入样本向量。
3. 进一步，广义线性回归模型可以写为或者的形式，其中为单调可微函数。所以在对数回归中，模型是。

sigmoid函数与LR的关系

sigmoid函数：在数学上是拥有性感的s形曲线样子的函数:
[小白式机器学习（一）] logistic regression（LR）对数几率回归 / 逻辑回归公式推导

通常说的sigmoid函数指的是这个logistic函数：。本文所指的sigmoid函数就是该logistic函数：
[小白式机器学习（一）] logistic regression（LR）对数几率回归 / 逻辑回归公式推导

sigmoid函数具有以下特点：
- 值域在(0,1)
- 求导非常容易 (求导过程见附录，或Wiki)

我们希望在做二分类时，输出不再是非0即1的取值，而是希望输出一个有概率意义的之间的值，表示的是分为正类的概率（所以是分为负类的概率），然后再做二分类，所以我们挑选sigmoid函数作为广义线性回归的，即

接下来将符合形式的写为的形式，则

所以，现在。
前面说到，输出值代表分到正类的概率，代表分到负类的概率，那么，称为几率，称为对数几率(logit)。的本质是用线性回归模型逼近对数几率，我们管这叫对数几率回归( logit regression / logistics regression)。

条件概率

代表分到正类的概率，即为条件概率：。
代表分到负类的概率，即为条件概率：。
我们有
假设数据集共有个样本，记第i个样本输入（m维向量）和样本标签分别为。条件概率其实和参数有关，那么正确分类的条件概率应该写为: ，简记为。
(意思是输入变量取时，输出=真实标签的概率)
也等价于
其中称为示性函数，当条件被满足就取1，否则取0。
在二分类型况下，怎么样的函数能满足这样的条件呢？和就可以呀！

从原始概率来看，即

最大似然求解

似然的解释见附录或Wiki

我们希望，求得参数，使“抽取的样本属于本身的标签的概率最大 ”即尽量大。
换句话说，就是极大化对数似然：

那么我们的目标就是

中我们用到，是因为连乘比起连加，求最优的难度更大，所以用对数函数转换一下，方便求解。
将带入，得：

化简：

我们有

回忆实际就是嘛！

最终目标函数成了最小化这个loss了，如何最小化？它关于x可导又连续，学过凸优化的都知道怎么做了吧？牛顿法、梯度下降等可以迭代求解最优。从搞神经网络的角度看，sigmoid是经典的**函数，LR完全可以等价成一层的神经网络，**函数是sigmoid！这里回忆一下，sigmoid函数的优良性质之一：导数好求。所以对于一切需要求梯度的方法，代码实现的难度就降低了。

附录

sigmoid函数求导

记

似然

我们从机器学习的角度看

记为模型（参数）。
记为训练数据集，是真实数据空间的抽样集合，训练数据集越大，D的分布越接近真实数据空间的分布。
记为一个观测，也可以理解为一个训练样本，是真实数据空间的一个抽样，即随机变量X的一个取值。
似然/似然函数（likelihood）：给定参数时，事件出现的可能性。
“似然”和“概率”可以算作同义词。通常，似然用于数据已知时描述模型参数（数据已知了还要描述数据出现的可能性，可不是就和参数有关嘛）。而概率通常用于描述未知的事件出现的可能性。似然的举例如下：
1. 当假设数据集中的每个样本在样本空间中都是独立的时候，参数相对于样本集的似然为
2. 参数相对于一个观测的似然为
是一个关于的函数。特别的，当是随机变量时，是条件概率，也可以写为。
贝叶斯推理的观点：
是服从分布的随机变量，分布是关于模型的假设，称为先验，先验概率（piror probability）也记为；给定数据集能得到模型的概率称为后验概率（posterior probability）；参数下数据集样本都在观测都出现的概率为似然（likelihood）；数据集的联合概率为。

Reference：

周志华－《机器学习》
ufldl － softmax
图片均来自维基百科

[小白式机器学习（一）] logistic regression（LR）对数几率回归 / 逻辑回归 公式推导