机器学习基本概念

监督学习(用于分类)
模型的学习在被告知每个训练样本属于哪个类的“指导”下进行
新数据使用训练数据集中得到的规则进行分类

无监督学习(用于聚类)
每个训练样本的类编号是未知的,要学习的类集合和数量也可能是事先未知的
通过一系列的观察,度量建立数据中的编号或进行聚类
机器学习基本概念
• 训练数据 {〈x1, y1〉, 〈x2, y2〉, …, 〈xm, ym〉} 其中
xj 为 n-dimensional向量, yj 为离散空间Y中的元素. E.g., Y = {normal, disease}
• 测试数据 {〈u1, ?〉, 〈u2, ?〉, …, 〈uk, ?〉, }

数据分类两步走
第一步:描述预先定义的数据类或概念集的分类器
机器学习基本概念
第二步:使用模型,对将来的或未知的对象进行分类
机器学习基本概念
• 数据预测也是一个两步的过程,类似于前面描述的数据分类
• 预测器可以看作一个映射或函数y=f(X)
• 其中X是输入;y是输出,是一个连续或有序的值
• 与分类类似,准确率的预测,也要使用单独的测试集

数据清理
消除或减少噪声,处理空缺值,从而减少学习时的混乱
相关分析
数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确 ◦
数据变换与归约
数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入 一个较小的指定区间,例 [0.0, 1.0](ANN和设计距离的度量方法中常用)
可以将数据概化到较高层概念

使用下列标准比较分类和预测方法
• 预测的准确率:模型正确预测新数据的类编号的能力
• 速度:产生和使用模型的计算花销
• 健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力
• 可伸缩性:对大量数据,有效的构建分类器或预测器的能力
• 可解释性:学习模型提供的理解和洞察的层