Supervised Learning (监督学习)与 Unsupervised Learning (非监督学习)
Supervised Learning (监督学习)
对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。
监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。
E.g.房屋价格预测-回归(Regression): 预测连续的输出值(价格)
乳腺癌(良性,恶性)预测问题-分类(Classification): 预测离散的输出值(0, 1)
即使有无限多种特征也可以处理(支持向量机)。
分类、回归都是监督学习的内容。
Unsupervised Learning (无监督学习)
对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。
常见的无监督学习算法有聚类。
上面介绍了监督学习。回想当时的数据集,如图表所示,这个数据集中每条数据都已经标明是阴性或阳性,即是良性或恶性肿瘤。所以,对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案,是良性或恶性。
在无监督学习中,我们已知的数据。看上去有点不一样,不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是有相同的标签。针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法,它能被用在很多地方。
无监督学习有着大量的应用。它用于:
一、组织大型计算机集群 使得计算机更好的协同工作
二、社交网络的分析 分析用户与用户之间的联系
三、市场分割 许多公司有大型的数据库,存储消费者信息。所以,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,你才能自动并更有效地销售或不同的细分市场一起进行销售。
四、天文数据分析 这些聚类算法给出了令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。
这些都是聚类的例子,聚类只是无监督学习中的一种。
小测试:
少量的离散值,作为一个分类问题。所以problem 2 为分类问题。