大数据梯度下降

机器学习近阶段的进步很大一部分来自数据集和算力的爆炸性增长，比如神经网络算法

面对大数据时，仍然使用常规的梯度下价格算法会带来巨大的计算量
Andrew Ng带我漫步机器学习 - 第十周处理大数据
根据学习曲线，减少数据集时可行的。随着训练样本增多，误差值越来越平稳，不需要重复计算

随机梯度下降

随机梯度下降是最常用的处理大数据的梯度下降算法
Andrew Ng带我漫步机器学习 - 第十周处理大数据
随机梯度下降公式的代价函数和梯度下降公式都没有样本总量m

Andrew Ng带我漫步机器学习 - 第十周处理大数据

批量梯度下降使用学习曲线
随机梯度下降在每次更新 $\theta$ 之前计算代价函数 $\dfrac{1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^2$ ，然后绘制前1000个样本获得的代价函数曲线

Andrew Ng带我漫步机器学习 - 第十周处理大数据

Andrew Ng带我漫步机器学习 - 第十周处理大数据

为了更好地使随机梯度下降算法收敛到收敛点附近，我们可以随着随机梯度下降的进行逐渐减少学习率 $\alpha$ ： $\alpha=\dfrac{const1}{iterationNumber + const2}$

不用也问题不大，因为又多了两个常量要处理

Andrew Ng带我漫步机器学习 - 第十周处理大数据

Andrew Ng带我漫步机器学习 - 第十周处理大数据
小批量梯度下降引入了新的参数b，为每一次运行梯度下降用到的样本量

在线学习主要应用于网站，主要是数据的来源和处理方式不同。在线学习需要注意的地方是每次采用一个样本（用户）来优化算法，优化结束后弃置这个样本

Andrew Ng带我漫步机器学习 - 第十周处理大数据
将训练集拆分为多个部分，分散到不同的机器进行计算，最后汇总到主机进行求和优化

Andrew Ng带我漫步机器学习 - 第十周处理大数据

这个图大概的意思就是使用分布式计算机系统都是在累加的i出上的，求偏导项往往也是累加的，有利于在主机上运算

使用多核计算机可以起到类似于分布式计算机系统的任务，使用不同的计算核心完成分布式任务