监督式学习(Supervised learning)
监督式学习是由一组人工标记的数据推测出假设函数的学习方法。大量训练样本构成样本集。每个训练样本包含输入值和期望输出值。下面我们看一个例子。
我们有美国波特兰地区47套房屋的居住面积及其价格的数据集。
居住面积(feet2) | 价格(1000$s) |
---|---|
2104 | 400 |
1600 | 330 |
2400 | 540 |
1416 | 232 |
3000 | 540 |
… | … |
数据绘制在二维图上:
根据这些数据我们可以找到预测波特兰房屋价格的方法(一个关于房屋面积的函数)吗?
我们先申明一些标记符,x(i)。
监督式学习的过程可表示为下图,训练集通过学习算法训练,求出一个假设(房屋面积对价格的函数)。当我们有新的数据需要预测时,给出房屋面积代入假设模型中,就会给出价格的预测值。
如果像这次的例子,目标变量是连续的(认为价格是连续的),学习问题就是回归问题;如果目标变量是离散的,学习问题就称为分类问题。
与监督式学习对应的非监督式学习,则是在一群未标记的数据上做数据处理(可以理解为只有值)。
监督式学习是由一组人工标记的数据推测出假设函数的学习方法。大量训练样本构成样本集。每个训练样本包含输入值和期望输出值。下面我们看一个例子。