您的位置: 首页 > 文章 > 《机器学习》--周志华（第十章学习笔记）

《机器学习》--周志华（第十章学习笔记）

分类: 文章 • 2023-11-26 22:24:46

降维与度量学习

k近邻学习

k近邻学习是一种常用的监督学习方法

工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k 个“邻居”的信息来进行预测

通常，在分类任务中可使用“投票法” ，即选择这k个样本中出现最多的类别标记作为预测结果；在回归任务中可使用“平均法”，即将这k个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。
“懒惰学习” 的著名代表，没有明显的学习过程，在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理；相应的，那些在训练阶段就对样本进行学习处理的方法，成为“急切学习”。

低维嵌入

高维空间给距离计算带来很大的麻烦

当维数很高时甚至连计算内积都不再容易

甚至样本变得稀疏
样本数据虽是高维的，但与学习任务密切相关的也许仅是某个低维分布，即高维空间中的一个低维“嵌入”
缓解维数灾难的一个重要途径就是降维，亦称“维数约简”，即通过某种数学变换将原始高维属性空间转变成一个低维“子空间”，在这个子空间中样本密度大幅提高，距离计算也变得更为容易。

主成分分析

是一种常用的降维方法

正交属性空间中的样本点，如何使用一个超平面对所有样本进行恰当的表达？
- 若存在这样的超平面，那么它大概应具有这样的性质：
- 最近重构性能：样本点到这个超平面的距离都足够近
- 最大可分性：样本点在这个超平面上的投影能尽可能分开

《机器学习》--周志华（第十章学习笔记）

PCA可用于人脸识别中，称为“特征脸”

将得到的d’个特征值对应的特征向量还原为图像