机器学习经典算法（三）--指数加权平均

机器学习经典算法（三）–指数加权平均

指数加权平均（Exponentially Weighted Averages）是一些改进梯度下降法重要理论，如上篇博文梯度下降法（2）提到的动量梯度下降法，RMSprop、Adam等都用到了指数加权平均。也叫指数加权移动平均（Exponentially Weighted Moving Averages）；那么到底什么是指数加权平均呢？

基础概念
话说有这么一个例子，如下图，横轴表示天数 $i$ ，纵轴表示某地每天对应的温度 $θ_{i}$ ，这是1年的数据，现在我们想计算一下，这一年温度变化的趋势

这个变化趋势也就是局部平均或移动平均，怎么做呢？
我们用 $v_{i}$ 表示这个平均值，引入一个 $β$ 参数，且令 $v_{0} = 0$ ，

v_{i} = β * v_{i - 1} + (1 - β) * θ_{i}

这样一个式子表达了相当于，当天的温度平均值约等于前 $T$ 天温度数据加权平均，

T \approx \frac{1}{1 - β}

。
例如：

β = 0.9

时，

T = 10

天，效果如图：

例如： $β = 0.98$ 时， $T = 50$ 天，效果如图：

例如： $β = 0.5$ 时， $T = 2$ 天，效果如图：

从上述3种情况对比看，该数据平均前10天较为符合我们期望；前50天曲线太平滑，有点偏离数据；前2天与数据较为贴合，但同时存在噪声。

进一步理解
我们将上式展开，这里用第100个平均值， $β = 0.9$ 为例：

\begin{array}{rcl} (19) & v_{100} & = & 0.9 * v_{99} + 0.1 * θ_{100} \\ (20) & v_{99} & = & 0.9 * v_{98} + 0.1 * θ_{99} \\ (21) & v_{98} & = & 0.9 * v_{97} + 0.1 * θ_{98} \\ (22) & \dots \end{array}

则：

\begin{array}{rcl} (23) & v_{100} & = & 0.1 * θ_{100} + 0.9 * v_{99} \\ (24) & = & 0.1 * θ_{100} + 0.9 (0.1 * θ_{99} + 0.9 * v_{98}) \\ (25) & = & 0.1 * θ_{100} + 0.9 (0.1 * θ_{99} + 0.9 (0.1 * θ_{98} + 0.9 * v_{97}) \\ (26) & \dots \\ (27) & = & 0.1 * θ_{100} + 0.1 * 0.9 θ_{99} + 0.1 * {0.9}^{2} θ_{98} + 0.1 * {0.9}^{3} * θ_{97} + \dots + 0.1 * {0.9}^{99} θ_{1} \end{array}

从上式可以看出第100天的平均值是由前100天数据加权平均的，但是看它们的权重系数，是符合一个指数级衰减函数，当

T = 10

时，

{0.9}^{10} \approx 1 / e

，当小于

1 / e

的权重其影响已经非常小了，所以相当于前10天的数据加权平均；同理当

θ = 0.98

时，

{0.98}^{50} \approx 1 / e

，所以相当于前50天数据加权平均。

偏差修正（bias correction）
上面讲述了指数加权平均原理，但还存在一个问题，就是开始时，我们算法的天数不到 $T$ 天时，怎么办呢？如下图

图中红色曲线还是 $β = 0.9$ 的曲线，绿色是我们上面提到的 $β = 0.98$ 的曲线；但是，按照上面公式去计算，呈现的 $β = 0.98$ 的曲线应该是紫色曲线，注意到它起步阶段与理想绿色曲线是偏小的。
这时误差修正就上场了：

v_{t} = \frac{v_{t}}{1 - β^{t}}

在

t

较小时，将会修正平均值，随着

t

曾大，其修正作用减小，因为这时也不需要修正了。
当然了再机器学习中，很多人不在意起步阶段偏小问题，而愿意熬过这个阶段，所以这个误差修正，也常常被忽略，如动量梯度下降法和RMSprop中就没有加入误差修正，在Adam算法中加入了误差修正。

参考文献：
【1】吴恩达DeepLearning.ai课程：https://mooc.study.163.com/smartSpec/detail/1001319001.htm

机器学习经典算法（三）--指数加权平均

相关推荐