Coursea-吴恩达-machine learning学习笔记（二）【week 1之Linear Regression with One Variable】

线性回归算法中特定的符号表示：
$m$ ：表示训练样本的数目；
$x$ ：表示输入的特征；
$y$ ：表示输出变量或目标变量；
$(x, y)$ ：表示一个训练样本；
$(x^{(i)}, y^{(i)})$ ：表示第 $i$ 个训练样本；
$h$ ：表示假设函数，表示从 $x$ 到 $y$ 的函数映射；

单变量的线性回归模型： $h_{θ} (x) = θ_{0} + θ_{1} x$ ；
其中， $θ_{0}, θ_{1}$ 为模型参数；

线性回归算法的目标为选择 $θ_{0}, θ_{1}$ ，使 $h_{θ} (x)$ 最接近样本对应的 $y$ 值，即寻找 $θ_{0} θ_{1}$ ，使

\frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} 最 小 。

$\frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}$ 表示平均误差，其中， $\frac{1}{2}$ 是为了方便后续梯度下降算法的计算。

引入代价函数的概念：

J (θ_{0}, θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

代价函数也称平方误差函数或平方误差代价函数，为了评价

h_{θ} (x)

的准确性，算法的目的是让

J (θ_{0}, θ_{1})

尽可能小。

平方误差代价函数是解决回归问题最常用的手段。

算法简化：
令 $θ_{0} = 0$ ，则 $h_{θ} (x) = θ_{1} x$ ，模型参数只剩下 $θ_{1}$ ，代价函数变为

J (θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

算法目标变为求

min_{θ_{1}} J (θ_{1})

带入训练集样本数据，发现

J (θ_{1})

是一个下凸曲线，找到令

J (θ_{1})

取值最小的

θ_{1}

。

$J (θ_{1}, θ_{0})$ 同理，可用轮廓图表示：
Coursea-吴恩达-machine learning学习笔记（二）【week 1之Linear Regression with One Variable】

梯度下降算法：可以使代价函数最小化。
算法定义：
repeat until convergence{

θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1}) (f o r j = 0 a n d j = 1)

}
：=为赋值运算符；

α

为一个数字，称为学习速率，控制梯度下降步幅。

$θ_{0}, θ_{1}$ 正确的更新方法：
$t e m p 0 := θ_{0} - α \frac{\partial}{\partial θ_{0}} J (θ_{0}, θ_{1})$
$t e m p 1 := θ_{1} - α \frac{\partial}{\partial θ_{1}} J (θ_{0}, θ_{1})$
$θ_{0} := t e m p 0$
$θ_{1} := t e m p 1$
$θ_{0}, θ_{1}$ 要同时更新。

通常将 $θ_{0}, θ_{1}$ 均初始化为0。

注： $\frac{\partial}{\partial x}$ 为偏导数符号， $\frac{d}{d x}$ 为导数符号

梯度下降算法中，若 $α$ 的值取得太小，梯度下降过于缓慢；若 $α$ 的值取得太大，可能导致无法收敛，甚至发散。
在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小幅度，因为当接近局部最低点时， $\frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1})$ 导数值自动变得越来越小。

线性回归算法的梯度下降：
$\begin{array}{cc} \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1}) & = & \frac{\partial}{\partial θ_{j}} \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} & = & \frac{\partial}{\partial θ_{j}} \frac{1}{2 m} \sum_{i = 1}^{m} (θ_{0} + θ_{1} x^{(i)} - y^{(i)})^{2} \end{array}$
$\begin{array}{cc} j = 0 时： \frac{\partial}{\partial θ_{0}} J (θ_{0}, θ_{1}) & = & \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) & = & \frac{1}{m} \sum_{i = 1}^{m} (θ_{0} + θ_{1} x^{(i)} - y^{(i)}) \end{array}$
$\begin{array}{cc} j = 1 时： \frac{\partial}{\partial θ_{1}} J (θ_{0}, θ_{1}) & = & \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)} & = & \frac{1}{m} \sum_{i = 1}^{m} (θ_{0} + θ_{1} x^{(i)} - y^{(i)}) x^{(i)} \end{array}$
即：
repeat until convergence{

\begin{array}{cc} θ_{0} : & = & θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) \\ θ_{1} : & = & θ_{1} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)} \end{array} θ_{0}, θ_{1} 同 时 更 新

}

批量梯度下降法(Batch Gradient Descent)：梯度下降法最常用的形式，具体做法是在更新参数时使用所有的样本来进行更新。

Coursea-吴恩达-machine learning学习笔记（二）【week 1之Linear Regression with One Variable】

相关推荐