写在前面

因为看的是英文版所以不能准确翻译的请见谅。

先说记号，【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程指输入features，指输出或目标值target，一对(, )是一个训练样本training example，训练集training set则是这样的i对样本组成的集合。

对于一个监督学习算法，他的目的是通过一个训练集学到一个方程，输入一个x得到一个比较接近真实的y的预测prediction，这个方程 h 被成为一个猜测hypothesis，这个过程图示为：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

当我们要预测的是连续数值，就称这个问题为线性回归linear regression，当预测结果是离散的，就是分类问题classification了。

Part1:线性回归

对于一个线性回归的预测我们有如下形式：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

在这里【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程是参数parameter（亦可称作权制weight），为方便以后都用h(x)来表示，同时为了简化这一表示方法，增加x0=1这一项之后可以化为：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

在这里theta和x都是向量，d代表特征数量。

为了考量h(x)的预测是否符合真实情况即y，引入代价函数cost function：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

这与统计线性回归的普通最小二乘不谋而合，对于算法来说，目标就是减小这一代价函数值。

1.最小均方差算法LMS

正如前面所说，我们想在选择各theta值时尽量明智，使得预测值尽量接近实际值。为了达到这个目的我们可以设定初始值，并不断改变各theta的值使得【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程越来越小，然后祈祷它最后收敛到一组theta使得到达最小值。在这里我们特别使用梯度下降算法gradient descent algorithm，在这个算法中我们先设定theta们的初值，然后重复以下更新算法：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

在这个更新规则中，所有的theta（j=0,1,...,d）会在同一时间一起更新，而alpha在这里指学习速率leaning rate。

鉴于我们已经有【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程的函数方程了，为了部署更新算法，我们需要求出的偏导数。我们先假设我们只有一对训练样本x和y，其偏导数计算结果是：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

这样我们就有了更新规则：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

这一更新规则我们称为最小均方差更新规则。

现在我们可以把这一规则推广到有多个样本的训练集的情形，这里有两种办法来应用LMS更新规则到多样本训练集，第一种是替换为如下算法：

重复直至收敛：{

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

}

这个算法每次计算都会访问所有数据一次，称为批量梯度下降法batch gradient descent。注意梯度下降会对局部最小值很敏感，而在我们的线性回归问题中只有一个整体最优解而没有其他局部最优解，所以梯度下降总会收敛至整体最优解。并且J也是一个二次凸函数，下图是一个线性回归例子执行时的轨迹：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

另一种算法也可以很好的完成这一任务：

【CS229机器学习】学习笔记Lecture1：各种记号，监督学习，线性回归，最小均方差，正规方程

这个算法会一个训练样本一个训练样本读取，每次更新只根据一个训练样本，称为随机梯度下降法stochastic gradient descent。对比两个算法会发现批量梯度下降每次会扫描所有的训练样本，对数据集大小很敏感。而随机梯度下降会挨个访问，适合于大型的数据集。而且大部分情况下随机梯度下降会比批量梯度下降更快地接近最小值（注意随机梯度下降可能不会收敛而会在最小值附近“晃悠”，但是在实际应用中这个结果已经足够精确了），所以通常更推荐随机梯度下降法。