监督学习和非监督学习

机器学习的定义

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习

例如:T:预测天气 P:预测天气的准确率 E:以往的天气参数和天气情况的数据
如果计算机程序通过这些以往天气的数据,在预测天气这件事上的准确率越来越高,那么这个计算机程序就从天气数据里学习了。

监督和非监督

机器学习存在几种不同类型的学习算法。其中主要的两种就是监督学习和非监督学习。首先上一张图
监督学习和非监督学习

  • 监督学习:通过有输入和输出的数据集来学习,开发出一个预测模型,这个预测模型能够很好的预测下一个输入的输出是什么。(也可以这么理解,通过大量的问题和相匹配的答案,总结出一条规律,通过这个规律,程序可以预测下一个问题的答案是什么)

    • 回归问题:通过大量的有输入和输出的数据集,来拟合一条曲线或者函数等等,通过这个函数我们可以预测下一次输入是什么答案。
      监督学习和非监督学习
      例如房子的面积和房价,通过大量的面积和相对应的房价,我们可以拟合出一条直线(曲线)。如果有下一次输入面积,我们就可以就可以通过这条曲线的回归函数(?)来得到这个面积预测的房价。

    • 分类问题:通过大量的有输入输出数据集,来得到一条或者多条分类标准,我们通过这些标准,可以预测下一次输入的类别是什么。
      监督学习和非监督学习
      例如通过肿瘤的大小来得到一条分类标准,体积大于多少的肿瘤可能是良性,体积小于多少的肿瘤可能是恶性。机器可以预测下一次输入是什么类别。

  • 非监督学习:机器(程序)通过仅有输入的数据集来对数据进行分类和解释。
    例如程序通过一段鸡尾酒晚会上的录音来自动提取人的声音或者是音乐。