斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

本讲内容:

1.locally weighted regression (局部加权回归算法)

2.Probabilistic interpretation of linear regression  (线性回归的概率解释)

3.Logistic regression    (逻辑回归算法)

4.Digression Perceptron (感知器算法)

 

欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

对于只包含这7个点的数据集来说,左2图(二次模型)最好的拟合了数据的特性。左1(线性模型)忽视了数据中的某些二次成分,而右1(6次模型)又过分地拟合了这七个点。

过大(右1)的特征集合,会使得到的模型过于复杂,这种情况称之为overfitting(过拟合);

过小(左1)的特征集合,会使得到的模型过于简单,这种情况称之为underfitting(欠拟合);

因此,特征的选择,对于算法的性能,是至关重要的。

那么问题是,怎样选取合适的特征,可以得到拟合特性最好的模型?

(1)在之后某一讲中,会提到特征选择算法,这是一类自动化的算法,可以在这类回归问题中选择要用到的特征。

(2)non-parametric learning algorithms 非参数化学习算法,可以在一定程度上缓解对于选取特征的需求。

定义:parametric learning algorithms 参数化学习算法, 是一类有固定数目的参数,以用来进行数据拟合的算法。

线性回归属于参数化学习算法。线性回归中,有一个固定的斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合集合,一定可以拟合数据。

non-parametric learning algorithms 非参数化学习算法

定义:non-parametric learning algorithms 非参数化学习算法,是一类参数数量会随着m增长的算法,m代表训练集合的大小。

局部加权回归属于非参数化学习算法。 

 

1.局部加权回归 /Loess

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

对于确定的查询点x,在x处对假设h进行求值:

对于线性回归:

(1) fit 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 to minimize  斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

(2) return 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

对于局部加权回归,工作有点不同:

对于查询点x,检查数据集合,然后只考虑位于x周围固定区域内的数据点,之后对这个数据子集使用线性回归来拟合出一条直线。

 

(1) fit 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 to minimize 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

where   斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

if  斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 small, then 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

if  斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 large, then 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 称为权值,对于和x离得近的点,赋予较大的权值;和x离得远的点,赋予较小的权值。

(2) return 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

更一般地,斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合称作波长函数,控制权值随距离下降的速率。

 

 

2.线性模型的概率解释 

提出问题:在回归问题中,为什么选择最小二乘估计作为我们的优化目标?

首先假设输出和输入有如下的映射关系:

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

在房屋问题中,除了面积或者卧室数量之外,可能还存在一些我们没有捕获的特征,他们也对房屋的价格存在影响,这种影响可以看做随机噪声。

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 意味着误差项,即我们未捕获特征以及其他随机噪声对房屋价格的影响总和。

假设斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 服从高斯分布,即 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

这表示,在给定参数的时候,房屋的价格也服从高斯分布:

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

假设斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 独立同分布

公式

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 称为参数斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合的似然性

     斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

         斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

极大似然估计(Maximum likelihood):选择斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 使得数据出现的可能性尽可能大

定义斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 对数似然函数

      斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

      斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

因此斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合等价于斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

等价于最小化 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合  注意到最终结果与斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合无关

 

该函数即为我们上一讲选择的成本函数斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

 

3.逻辑回归

分类:回归问题预测的变量y是连续变量,而分类问题中预测的变量y是离散变量。这里讨论二元分类,即限定斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

对分类问题使用线性回归可能是一个糟糕的主意。线性回归的预测值可能大于1,也可能小于0,而我们希望我们的假设预测的输出值在0,1 之间。

所以我们不选择线性函数作为假设,而选择

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合 称为sigmoid function 或者 logistic function.

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合的图像如下

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

概率意义上的解释:

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

将上述二式写在一起:

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

做参数的极大似然估计

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

   斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

        斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

       斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

为了使对数似然函数最大化,采样梯度上升法更新斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合的值,之所以是上升而不是下降,是因为这里需要的是斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合的极大值

 

  斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

  斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

        斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

               斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

    斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

         斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

 

4.感知器算法    

 

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

代替 logstic function: 斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

 

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

该函数生成的值只有0,1,所以为该函数赋予概率意义十分困难。

使用梯度上升法更新参数斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合

斯坦福公开课机器学习笔记第三讲--欠拟合与过拟合