线性回归&逻辑回归&最小二乘法&最大似然法

线性回归：

target function：

$f (x) = w x + b$

　
loss function：

最小二乘的角度：
$m i n \sum_{i = 0}^{N} (y_{i} - f (x_{i}))^{2}$

最大似然的角度：
$m a x \prod_{i = 0}^{N} (\frac{1}{\sqrt{2 π} σ} e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}})$
$= m a x \ln {\prod_{i = 0}^{N} (\frac{1}{\sqrt{2 π} σ} e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}})}$
$= m a x \sum_{i = 0}^{N} {\ln (\frac{1}{\sqrt{2 π} σ}) + \ln (e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}})}$
$= m a x \sum_{i = 0}^{N} {\ln (\frac{1}{\sqrt{2 π} σ}) + (- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}})}$
$= N * \ln (\frac{1}{\sqrt{2 π} σ}) + m a x \sum_{i = 0}^{N} (- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}})$
$= N * \ln (\frac{1}{\sqrt{2 π} σ}) + \frac{N}{2 σ^{2}} m i n \sum_{i = 0}^{N} (y_{i} - f (x_{i}))^{2}$
$N * \ln (\frac{1}{\sqrt{2 π} σ})$ 和 $\frac{N}{2 σ^{2}}$ 都是常数，可以不看，最终的loss function化简结果为：
$m i n \sum_{i = 0}^{N} (y_{i} - f (x_{i}))^{2}$

　
无论是最小二乘法推导，还是从最大似然推导，得到的损失函数是相同的。

相同的原因在于：
最小二乘法遵循前提: $y_{i}$ 存在误差，而误差的分布满足以 $f (x)$ 为中心的正态分布。

最小二乘： $(y_{i} - f (x_{i}))^{2} \propto (y_{i} - f (x_{i}))^{2}$
最大似然： $\ln (\frac{1}{\sqrt{2 π} σ} e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}}) \propto (y_{i} - f (x_{i}))^{2}$

PS：把 $m a x \prod_{i = 0}^{N} (P_{i})$ 转换为 $m a x \ln \prod_{i = 0}^{N} (P_{i})$ 这一步想法很巧妙。

逻辑回归：

在线性回归中，我们target function用 $f (x) = w x + b$ ，是因为 $y_{i}$ 满足线性分布， $y_{i} \subseteq R$ ,但是当在解决一个二分类问题/二型分布时， $y_{i} \subseteq {0, 1}$ ，就不能在用 $f (x) = w x + b$ 来进行拟合。因为得到的预估结果 $f (x) \subseteq R$ ,预估范围与目标范围不匹配，同时误差不好定义。
所以，引入了sigmod函数，用于对线性得到的结果进行一次映射： $s i g m o d (x) = \frac{1}{1 + e^{- x}}$ 。sigmod导数: $s i g m o d^{'} (x) = s i n g m o d (x) * [1 - s i g m o d (x)]$
所以我们定义target function：

$g (f (x)) = s i g m o d (f (x)) = \frac{1}{1 + e^{- f (x)}} = \frac{1}{1 + e^{- w x - b}}$

　
引入sigmod后解决了区间的问题，但是loss function的定义又是一个问题。最快想到的就是类似线性回归中类似定义loss function：

$m i n \sum_{i = 0}^{N} [y_{i} - g (f (x_{i}))]^{2}$

　
这样定义其实是可以的，因为如果我们的预测准确性很高的话， $lim (y_{i} - g (x_{i})) \to 0$ ，则 $\sum_{i = 0}^{N} (y_{i} - g (x_{i}))^{2} \to 0$ ，loss function达到最小值。

以上定义的loss function的最优解满足我们的期望“误差最小”，但是我们在求解 $w$ 最优解的过程中会出现问题，我们一般是使用“梯度下降”的方式寻找最优解。但“梯度下降”能找到最优解的前提是“函数是凸函数”。很遗憾这个loss function并不满足，详情如下:

“梯度下降”即：不断进行 $w = w - l o s s^{'} (w)$ 运算，最终 $w$ 收敛到某个稳定值。此时我们认为loss function达到最小值。

进行一下模拟：

$l o s s^{'} (w) = \sum_{i = 0}^{N} 2 * [y_{i} - g (f (x_{i}))] * (- 1) * g_{f}^{'} (f (x)) * f_{w}^{'} (x_{i})$
$l o s s^{'} (w) = \sum_{i = 0}^{N} 2 * [y_{i} - g (f (x_{i}))] * (- 1) * g (f (x_{i})) * [1 - g (f (x_{i}))] * x_{i}$
$l o s s^{'} (w) = \sum_{i = 0}^{N} (- 2 x_{i}) * [y_{i} - g (f (x_{i}))] * g (f (x_{i})) * [1 - g (f (x_{i}))]$
分类讨论:

$y_{i} = 0$ 时， $x_{i}$ 对导数的贡献为:
$l o s s^{'} (w) = (- 2 x_{i}) * [0 - g (f (x_{i}))] * g (f (x_{i})) * [1 - g (f (x_{i}))]$
$l o s s^{'} (w) = 2 x_{i} * g (f (x_{i}))^{2} * [1 - g (f (x_{i}))]$

$y_{i} = 1$ 时， $x_{i}$ 对导数的贡献为:
$l o s s^{'} (w) = (- 2 x_{i}) * [1 - g (f (x_{i}))] * g (f (x_{i})) * [1 - g (f (x_{i}))]$
$l o s s^{'} (w) = (- 2 x_{i}) * g (f (x_{i})) * [1 - g (f (x_{i}))]^{2}$

我们假设 $x_{i} > 0$ (不考虑 $x_{i}$ 的影响)
以下讨论 $y_{i} = 0$ 时的情况， $y_{i} = 1$ 的情况类似。不在讨论。

$y_{i} = 0$ 时， $l o s s^{'} (w) — g (f (x))$ 关系曲线大致如图：

线性回归&逻辑回归&最小二乘法&最大似然法
$l o s s^{'} (w) — f (x)$ 关系曲线大致如图：

基于 $l o s s^{'} (w)__g (f (x))$ 的图像我们可以知道： $y_{i} = 0$ 时， $g (f (x))$ 的值越靠近1或者越靠近0时的变化越来越小。所以可以评估 $l o s s (w)__g (f (x))$ 图像大致如下(同样假设 $y_{i} = 0$ )：
线性回归&逻辑回归&最小二乘法&最大似然法

现在考虑假设情况：
$y_{0} = 0, g (x_{0}) = 0.98$
$y_{1} = 1, g (x_{1}) = 0.80$
此时我们对 $w$ 进行梯度下降， $g_{w}^{'} (x_{0}) = h 0 ， g_{w}^{'} (x_{1}) = - h 1 ，（设 h 0 > 0, h 1 > 0 ）$
因为我们刚才讨论，g(f(x))在趋近于0或者1时导数越小，所以 $h 0 < h 1$ ，也就是梯度下降方向：

$- l o s s^{'} (w) = - g_{w}^{'} (x_{0}) - (- g_{w}^{'} (x_{1})) = h 1 - h 0 > 0$

　
我们发现梯度下降的方向是 $g_{w}^{'} (x_{1})$ 主导的，w正在朝着 $(- g_{w}^{'} (x_{1}))$ 的方向变化，这将使得 $g (x_{1})$ 得到优化，但代价是进一步牺牲 $g (x_{0})$ 的准确性，因为 $w$ 正在朝着 $(- g_{w}^{'} (x_{0}))$ 的反方向改变。
经过这样一步之后，可能结果变成：
$y_{0} = 0, g (x_{0}) = 0.99$
$y_{1} = 1, g (x_{1}) = 0.84$
更可怕的是梯度最终会稳定在 $- g_{w}^{'} (x_{0}) = g_{w}^{'} (x_{1}))$ 的时候。此时结果大概为：
$y_{0} = 0, g (x_{0}) = 0.9999$
$y_{1} = 1, g (x_{1}) = 0.999$

陷入了局部最优，失败。

分析一下错误的原因：
进行调节的过程中，每个数据 $x_{i}$ 对 $l o s s^{'} (w)$ 的贡献值为 $([y_{i} - g (f (x_{i}))]^{2})^{'}$ ，我们对 $w$ 的调节是将每个数据 $x_{i}$ 的贡献(也就是导数)相加，所以导数的(绝对值)大小可以理解为表征自己偏离正确答案的差距，应该做到预测结果越偏离真实值，导数的绝对值越大。
显然上文中的loss function的导数并不是这样。比如 $y_{i} = 0$ 时， $g (x_{i}) = 0.7$ 时的导数的绝对值大于 $g (x_{i}) = 0.9$ 处的导数的绝对值。说明loss function认为0.7处的改善比0.9处的改善更加迫切。当若干组数据提供的梯度方向不一致时，导数又错误的表述了该组数据“等待改变的迫切情况/偏离正确的程度”。最终导致梯度相加得到的结果是不准确的，收敛到局部最优。

那么怎么可以避免这种情况呢。就是当导数是单调的时候
比如在 $y_{i} = 0 时， l o s s^{'} (w)__g (f (x))$ 关系曲线如下图：
线性回归&逻辑回归&最小二乘法&最大似然法

以上图为例。
$l o s s^{'} (w) 是单调的$
$\Rightarrow 若 g (f (x_{1})) > g (f (x_{2})), 则 l o s s (x_{1}) > l o s s (x_{2})$
$\Rightarrow l o s s (x_{1}) + l o s s (x_{2}) < 2 * l o s s (\frac{x_{1} + x_{2}}{2})$
$\Rightarrow l o s s (w) 是凸函数$

　
所以我们的loss function 要满足2个条件：

1. $g (f (x_{i}))$ 越偏离 $y_{i}$ 时， $l o s s (w)$ 值越大

2. $g (f (x_{i}))$ 越偏离 $y_{i}$ 时， $l o s s^{'} (w)$ 绝对值越大，其实等价于要求 $l o s s (w)$ 是一个凸函数

　
所以我们给出新的loss function，定义其为：

$m i n \sum_{i = 0}^{N} [(1 - y_{i}) * (- \ln (1 - g (f (x_{i})))) + y_{i} * (- \ln g (f (x_{i})))]$

　
此式的灵感由最大似然得到。
经过这样一个改进，在满足第一个条件的情况下，也让loss function满足了第二个条件。理由如下：

$y_{i} = 0$ 时， $x_{i}$ 对loss function导数的贡献为:
$l o s s^{'} (w) = (- \ln (1 - g (f (x_{i}))))^{'}$
$l o s s^{'} (w) = (- 1) * \frac{1}{1 - g (f (x_{i}))} * (- 1) * g_{f}^{'} (f (x_{i})) * f_{w} (x_{i})$
$l o s s^{'} (w) = \frac{1}{1 - g (f (x_{i}))} * g (f (x_{i})) * [1 - g (f (x_{i}))] * x_{i}$
$l o s s^{'} (w) = g (f (x_{i})) * x_{i}$
$l o s s^{'} (w)__g (f (x))$ 是一个单调函数，且 $l o s s^{'} (w)$ 越远离0，靠近1，其绝对值越大，满足条件。

$y_{i} = 1$ 时， $x_{i}$ 对loss function导数的贡献为:
$l o s s^{'} (w) = (- \ln g (f (x_{i})))^{'}$
$l o s s^{'} (w) = (- 1) * \frac{1}{g (f (x_{i}))} * g_{f}^{'} (f (x_{i})) * f_{w} (x_{i})$
$l o s s^{'} (w) = (- 1) * \frac{1}{g (f (x_{i}))} * g (f (x_{i})) * [1 - g (f (x_{i}))] * x_{i}$
$l o s s^{'} (w) = [g (f (x_{i})) - 1] * x_{i}$
$l o s s^{'} (w)__g (f (x))$ 是一个单调函数，且 $l o s s^{'} (w)$ 越远离1，靠近0，其绝对值越大，满足条件。

　
综上所述，该loss function满足两个条件，为凸函数。同时 $y_{i} = 0 与 y_{i} = 1$ 两种情况下, $l o s s (w)__g (f (x))$ ， $l o s s^{'} (w)__g (f (x))$ 两个图像左右对称，保证了不偏向0或者1中的某一个。

$S U C C E S S$

回过头我们在来评估下线性回归的loss function 为什么不会出现问题：

$l o s s = m i n \sum_{i = 0}^{N} (y_{i} - f (x_{i}))^{2}$

$x_{i}$ 对loss function导数的贡献为:
$l o s s^{'} (w) = 2 * (y_{i} - f (x_{i})) * (- x_{i})$
可以看出如果 $f (x_{i})$ 与 $y_{i}$ 差越大的话，也就是如果给出的评估与实际结果偏差越远，则loss’(w)绝对值越大。满足条件。

　
总结整个流程就是:
1.寻找loss function目前没有什么很好很通用的方法，所以一般用梯度下降算法。
2.梯度的最终方向是将数据 $x_{i}$ 的梯度相加，这就要求 $x_{i}$ 的梯度要以全局考虑， $t a g e t (x_{i})$ 越靠近 $y_{i}$ ，那 $x_{i}$ 你的梯度就越小，把主导机会留给其他 $t a g e t (x_{i})$ 远离 $y_{i}$ 的数据。即

$| t a r g e t (x_{i}) - y_{i} | ↑ ， | \nabla l o s s (x_{i}) | ↑$

PS：如果你能找到一个寻找到全局最优解的方法，且这个方法没有“凸函数”之类的前提要求。你就可以在逻辑回归中使用 $m i n \sum_{i = 0}^{N} [y_{i} - g (f (x_{i}))]^{2}$ 作为loss function。

线性回归&逻辑回归&最小二乘法&最大似然法

线性回归：

逻辑回归：

陷入了局部最优，失败。

1.g(f(xi))g(f(xi))越偏离yiyi时，loss(w)loss(w)值越大

2.g(f(xi))g(f(xi))越偏离yiyi时，loss′(w)loss′(w)绝对值越大，其实等价于要求loss(w)loss(w)是一个凸函数

SUCCESS SUCCESS

相关推荐

1. $g (f (x_{i}))$ 越偏离 $y_{i}$ 时， $l o s s (w)$ 值越大

2. $g (f (x_{i}))$ 越偏离 $y_{i}$ 时， $l o s s^{'} (w)$ 绝对值越大，其实等价于要求 $l o s s (w)$ 是一个凸函数

$S U C C E S S$