吴恩达机器学习课程 | 01 线性回归模型

一元线性回归模型

“一元”就是指单个特征。

通过预测房价的问题作为例子。

吴恩达机器学习课程 | 01 线性回归模型

将训练集中的数据用图像的形式表现出来,然后寻找一条与数据点最拟合的曲线。为了方便理解最基本的概念,假设这条曲线的函数是 hθ(x)=θ0+θ1xh_{\theta}(x)=\theta_{0}+\theta_{1}x (一元线性回归模型)。这个函数被称为 hypothesis 。函数中 xx 是房子的大小,hθ(x)h_{\theta}(x) 则是对应的房价。既然这个问题是个线性回归的问题,那么我们就能得到一个 cost function

J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2J \left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}

cost function 又称为 square error function。这个函数反映了垂直方向上假设函数上的点与数据点之间的距离的总和。

这个 cost function 的图像大致如下:

吴恩达机器学习课程 | 01 线性回归模型

我们的目标是使这个函数的最小值,只要找到这个函数的最小值,就是找到了最优的参数 θ0\theta_{0}θ1\theta_{1} 。怎么找?这就需要用到梯度下降算法。梯度下降算法有很多种,这里用到的是 Batch 梯度下降算法,这个梯度下降算法的特点是每次梯度下降都会遍历整个训练集,从 cost function 中的累加符号 \sum 就可以看出这一点。Batch 梯度下降算法如下所示:


repeat until convergence{θj:=θjαθjJ(θ0,θ1)( for j=0 and j=1)}\text{repeat until convergence} \{ \\ \qquad \theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J\left(\theta_{0}, \theta_{1}\right) \quad(\text { for } j=0 \text { and } j=1) \\\}


在实际编码的时候要注意:
吴恩达机器学习课程 | 01 线性回归模型

现在我们已经有了线性回归问题的模型以及梯度下降算法,

吴恩达机器学习课程 | 01 线性回归模型

整理到一起就得到了:

吴恩达机器学习课程 | 01 线性回归模型

这样,刚开始的时候随便给出一对 θ0\theta_{0}θ1\theta_{1} 的值,就可以让梯度下降算法运作起来,它会自动的帮我们找到最优的那一对 θ0\theta_{0}θ1\theta_{1}

多元线性回归模型

“多元”指的是多个特征

对于房价问题,可以多选几个特征,如:
吴恩达机器学习课程 | 01 线性回归模型

对于该问题,可以采用下面的

hypothesis(多元线性回归模型):

hθ(x)=θ0x0+θ1x1+θ2x2++θnxn(便x0x0=1)h_{\theta}(x)=\theta_{0}x_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\cdots+\theta_{n}x_{n} \quad (为了方便起见新增一个特征 x_{0},并令 x_{0}=1)

上式可简写成 hθ(x)=θTxh_{\theta}(x)=\theta^{T}x

其中 x=[x0 x1 x2  xn]TRn+1x=\left[\begin{array}{l}x_{0} \ x_{1} \ x_{2} \ \cdots \ x_{n}\end{array}\right]^{T} \in \mathbb{R}^{n+1}θ=[θ0 θ1 θ2  θn]TRn+1\theta=\left[\begin{array}{l}\theta_{0} \ \theta_{1} \ \theta_{2} \ \cdots \ \theta_{n}\end{array}\right]^{T} \in \mathbb{R}^{n+1}

cost function

J(θ0,θ1,,θn)=12mi=1m(hθ(x(i))y(i))2J \left( \theta_0, \theta_1, \cdots, \theta_n \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}

也可写作:

J(θ)=12mi=1m(hθ(x(i))y(i))2J \left( \theta\right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2} ,其中 θ\theta 为参数向量。

(多元)梯度下降算法:这也是最一般的梯度下降算法


repeat {

θj:=θjαθjJ(θ)( simultaneously update for every j=0,,n)\theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J\left(\theta\right) \quad(\text { simultaneously update for every } j=0,\cdots,n)

}


将上述式子整理到一起后,有:

吴恩达机器学习课程 | 01 线性回归模型

由此,只要在一开始随机指定所有参数 θj(j=0,,n)\theta_j\quad (j=0,\cdots,n) ,梯度下降算法就会自动地为我们找到最优的参数 θj\theta_j

对于回归问题,除了可以采用线性回归模型以外,还可以采用多项式回归模型。对于一个二维平面来说,线性回归模型是一条直线,多项式回归模型,则可以是一条曲线,如 y=θ0+θ1x+θ2x2+θ3x3y=\theta_0 + \theta_{1}x + \theta_2x^2 + \theta_3x^3。而对于线性回归模型,当把模型的图像映射到一个平面中时,会发现仍为直线,也就是说线性回归模型的图像都是直的,不会有曲的,这也是“线性”这个词的意思。

对于特征的选择:

不一定要使用已给出的特征,比如房子的临街宽度 x1x_{1} 和纵深 x2x_{2},你完全可以将这两个特征结合起来当作一个特征使用,比如使用它们的乘积(也就是面积)作为特征。

多元梯度下降算法的一些实用技巧

1. 特征缩放 Feature Scaling

将所有特征控制在相似的范围内,梯度下降算法可以收敛地更快。

比如对于预测房价的问题,有两个特征:

x1=size02000feet2x_1 = \text{size}(0-2000 \text {feet}^2)

x2=number of bedrooms(15)x_2 = \text {number of bedrooms} (1-5)

如果将 x1x_1 的范围缩小为原来的 12000\frac{1}{2000} 倍,x2x_2 的范围缩小为原来的 15\frac{1}{5} 倍,梯度下降算法就可以收敛地更快。

对于范围的选择,可以是 (1,1)(-1,1) 或者与之相近的范围,如 (3,3)(-3,3) ,但 (100,100)(-100,100) 这个范围就太大了。

Mean Normalization 均值归一化

#TODO

2. 确定梯度下降算法在正常运作的方法以及学习率的选择

#TODO

Normal Equation

梯度下降算法能够解决的问题也可以通过 normal equation 来解决。与梯度下降算法相比,normal equation 可以一次性就将最优的参数组合计算出来。

但 normal equation 也存在一些缺点,其中一点就是当训练集的样本数量很庞大时,normal equation 的表现可能就没有梯度下降算法那么好。

梯度下降算法与normal equation 的优缺点对比

Gradient Descent Normal Equation
Need to choose αα No need to choose αα
Need many iterations Don’t need to iterate
Works well even when n is large 需要计算 (XTX)1(X^TX)^{-1}, 因此当样本数量 n 很大时会运行得很慢。

normal equation 的具体细节如下:

公式:θ=(XTX)1XTy\theta=(X^TX)^{-1}X^Ty