【机器学习】周志华西瓜书学习笔记:1.2 基本术语
基本术语
以西瓜的数据为例
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅白;根蒂=硬挺;敲声=清脆),…
- 记录
括号内的内容为一条记录 -
数据集
记录的集合
- 示例/样本/特征向量
每条记录是关于一个事件和记录的描述,称示例 - 属性/特征
反映事件或对象在某方面的表现或性质的事项,如“色泽”、“根蒂”、“敲声” - 属性值
属性上的取值,如“青绿”“乌黑” - 属性空间/样本空间/输入空间
属性张成的空间,如西瓜的三个属性作为三个坐标轴,则张成一个描述西瓜的三维空间。一个示例为一个特征向量
二、关于学习
- 学习/训练
从数据中学得模型的过程。
这个过程通过执行某个学习算法来完成。学习算法通常有不同参数进行设置,使用不同参数值或训练数据将产生不同结果 - 训练数据、训练样本和训练集
训练数据为训练过程中使用的数据,其中每个样本为训练样本,训练样本组成的集合为训练集 - 假设
学得模型对应了关于数据的某种潜在的规律 - 真相/真实
潜在规律自身为真相 - 标记
要建立关于“预测”的模型就要获得训练样本的“结果”信息,“结果”信息称为标记
如((色泽=青绿;根蒂=蜷缩;敲声=浊响);好瓜) 好瓜就是标记 - 样例
样例就是由标记信息的示例,格式为(Xi,Yi)Xi为第i个样例,Yi为示例xi的标记 -
分类和回归
欲预测的值为离散值,则此类学习任务称分类
预测的为连续性,则为回归
预测任务希望通过训练对训练集{(x1,y1),(x2,y2),…,(xm,ym)}进行学习,建立一个从输入空间X到输出空间Y的映射。
对二分类任务,Y的取值为{-1,+1}或{0,1}
对多分类任务,Y的取值为|Y|>2
对回归任务,Y=|R,|R为实数集 - 聚类
聚类将训练集分为若干个组,每组为一个簇
在聚类学习中使用的训练样本通常不拥有标记信息 - 监督学习和无监督学习
根据训练数据是否拥有标记信息,将学习任务分为监督学习和无监督学习
分类和回归为监督学习的代表
聚类为无监督学习的代表
- 泛化能力
学习模型适用于新样本的能力 - 独立同分布
我们获得的每个样本都是独立的从一个样本服从的未知分布上采样获得的,即独立同分布