斯坦福机器学习笔记-单变量线性回归

本节通过房价预测问题来学习第一个学习算法线性回归算法

基本概念

监督式学习-回归

监督式学习：由于对于数据样本来说，都包含与之对应的正确答案，故为监督式学习
回归：预测值为连续值，故为回归问题

训练集

首先明确几个数学符号, 如下图所示

m：表示训练集样本数目
$x^{'} s$ 表示输入向量，也叫输入特征，比如本例房价预测问题中的面积，居住区域等
$y^{'} s$ 表示输出变量，也叫目标变量
（ $x^{(i)}$ , $y^{(i)}$ )表示训练集中第i个训练样本

假设函数(Hypothesis Function)

通过给定的训练集学习到的函数h : X -> Y叫做假设函数(Hypothesis Function)，如图所示，本例房价预测问题中的假设函数就是一个房价(Y)关于面积(X)的函数。一个好的假设函数可以预测出对应X的Y值。

我们通过如下形式表示假设函数，为了方便， $h_{θ} (x)$ 也叫作 $h (x)$ , 当然会有更复杂的函数，也许是非线性函数，但是由于线性函数是简单的形式，所以我们先从线性方程的例子开始学习，逐渐建立复杂的模型。
斯坦福机器学习笔记-单变量线性回归

上图所示是单个变量的线性回归，这个变量就是x，根据x来预测房价的函数，这个模型也叫作Univariate linear regression。
斯坦福机器学习笔记-单变量线性回归

代价函数(Cost Function)

引入代价函数的目的是为了更好的将我们的线性方程和数据相拟合。当我们设定了假设函数外，我们就可以进行预测。但是如何选择假设函数的参数 $θ_{0}$ 和 $θ_{1}$ 呢？选择不同的参数 $θ_{0}$ ， $θ_{1}$ 时，就会有不同的假设函数。下图列举了三种不同 $θ_{0}$ , $θ_{1}$ 情况下的假设函数
斯坦福机器学习笔记-单变量线性回归

问题是如何选择参数呢？我们的想法是选择某个参数 $θ_{0}$ , $θ_{1}$ ，使得对于训练集的训练样本(x, y), $h_{θ} (x)$ 尽可能的接近y. 如果预测值和真实值越接近，表示假设函数越准确。这里我们使用均方误差来作为衡量标准，即我们的目标是最小化训练样本的预测值和真实值的平方的均值，公式如下
斯坦福机器学习笔记-单变量线性回归

其中m为训练集中样本数目，上标i表示某训练样本， 1/2是为了简化计算

现在我们定义一个代价函数
斯坦福机器学习笔记-单变量线性回归

我们的目标就是关于 $θ_{0}$ , $θ_{1}$ , 对代价函数 $J (θ_{0}, θ_{1})$ , 求最小值, 即
斯坦福机器学习笔记-单变量线性回归

代价函数也叫作平方误差代价函数，也有其他代价函数，不过对于回归问题来说，平方误差代价函数是一个合理的选择。

代价函数直观理解

为了更好的理解代价函数，我们使用简化的假设函数，即令 $θ_{0}$ 为0，简化版的假设函数是经过原点的直线，如果所示
斯坦福机器学习笔记-单变量线性回归

我们需要更好的理解两个函数，一个是代价函数，另一个是假设函数。需要注意的是，假设函数是关于x的函数，对于本例就是关于房子面积x的函数。与此不同的是代价函数是关于 $θ_{1}$ 的函数，而 $θ_{1}$ 控制着假设函数的斜率。如图所示，令 $θ_{1}$ 为1，训练集包含三个样本
斯坦福机器学习笔记-单变量线性回归

左边为假设函数，x轴为房子面积，现在我们计算下当 $θ_{1}$ 为1的情况下，代价函数的值为0

继续更改 $θ_{1}$ 的值，计算对应的代价函数的值, 得到下图
斯坦福机器学习笔记-单变量线性回归

对于不同的 $θ_{1}$ , 有着不同的假设函数 $h_{θ} (x)$ 和不同的 $J (θ_{1})$ ，我们学习算法的优化目标就是寻找某个 $θ_{1}$ 使得代价函数 $J (θ)$ 值最小，从图中可以看出，当 $θ_{1}$ 为1的时候，假设函数能够完美的拟合训练数据，代价函数取得最小值

代价函数直观理解II

上节中，我们令 $θ_{0}$ 等于0，故代价函数 $J (θ)$ 是关于 $θ_{1}$ 的函数。但本节有两个参数 $θ_{0}$ , $θ_{1}$ ，所以代价函数图像有些复杂。当只有一个参数 $θ_{1}$ 的时候，代价函数图像是一个弓形函数，两个参数的代价函数在某种意义上也是一种弓形函数，是一个三维坐标的弓形曲面
斯坦福机器学习笔记-单变量线性回归

其中，参数 $θ_{1}$ , $θ_{1}$ 分别为底面坐标轴，某点高度表示 $J (θ)$ 值

后面为了简便，将会用轮廓图(contour plots)，也叫等高线图来表示。如下图所示，最小值就是这一系列同心椭圆的中心点。举个例子，下图中右侧x点， $θ_{1}$ 等于800， $θ_{1}$ 等于-0.15，左边就是该参数下的假设函数，可以看到，假设函数不能很好的拟合训练数据，并且x点距离中心点还很远，即此处代价值比较大
斯坦福机器学习笔记-单变量线性回归

类似的，我们逐渐尝试不同的参数值，最后我们找到某个点，虽然不是最小值，但已经很接近最小值点了，如下图所示
斯坦福机器学习笔记-单变量线性回归

当然，我们需要一种有效的算法，能够自动的找到使得代价函数J取得最小值的参数。因为我们会遇到更复杂，更高纬度，更多参数的情况，那时无法将其可视化。这就引出我们下节要将的算法梯度下降算法。

由本两节可知，假设函数是我们拟合数据的函数，而代价函数是评价假设函数拟合数据的拟合程度。

梯度下降算法

梯度下降

梯度下降算法是一种很常用的优化算法，他不仅被用在线性回归中，也被用于机器学习领域中的众多领域。梯度下降算法寻找最有参数 $θ$ 的思想是：首先随机初始化参数，比如 $θ_{0}$ , $θ_{1}$ (例如 $θ_{0} = 0$ , $θ_{1} = 0$ ), 不断地改变参数 $θ_{0}$ , $θ_{1}$ , 减小 $J (θ)$ , 直到找到最小值点。
斯坦福机器学习笔记-单变量线性回归

下图片表明了梯度下降法的工作过程，可以把梯度下降的过程想象成一个人下山，如果想要尽快的下山，则每次都应该向坡度最大的方向下山。
斯坦福机器学习笔记-单变量线性回归

梯度下降算法会收到初始状态的影响，如果我们选择不同的初始点，可能会到达不同的局部最小值。比如下图
斯坦福机器学习笔记-单变量线性回归

下面具体看一下梯度下降算法的定义，如图所示，
斯坦福机器学习笔记-单变量线性回归

其中，:=表示赋值， $α$ 为学习速率，控制着下降的歩幅， $\frac{\partial J (θ_{0}, θ_{1})}{\partial θ_{j}}$ 叫做梯度。算法的微妙之处在于要同时(simultaneously)更新 $θ_{0}$ 和 $θ_{1}$

梯度和学习速率

本节将深入介绍梯度和学习速率对于梯度下降算法的意义。为了简化问题，我们使得 $θ_{0}$ 等于0. 假设我们选择的初始点 $θ_{1}$ 在最小值的右侧，此时的斜率是正数。根据算法更新参数公式， $θ_{1}$ 减去学习速率 $α$ 乘以梯度, 相当于左移参数，逐渐靠近最低点。如果初始点选择在最低值的左边，则此时的斜率为负数，更新公式会增大，逐渐靠近最低点
斯坦福机器学习笔记-单变量线性回归