《机器学习》--周志华 (第十章学习笔记)

降维与度量学习

k近邻学习

k近邻学习是一种常用的监督学习方法

  • 工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k 个“邻居”的信息来进行预测

    通常,在分类任务中可使用“投票法” ,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将这k个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。

  • “懒惰学习” 的著名代表,没有明显的学习过程,在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方法,成为“急切学习”。

    《机器学习》--周志华 (第十章学习笔记)

    《机器学习》--周志华 (第十章学习笔记)

低维嵌入

  • 高维空间给距离计算带来很大的麻烦

    当维数很高时甚至连计算内积都不再容易

    甚至样本变得稀疏

  • 样本数据虽是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维“嵌入”

  • 缓解维数灾难的一个重要途径就是降维,亦称“维数约简”,即通过某种数学变换将原始高维属性空间转变成一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易。

    《机器学习》--周志华 (第十章学习笔记)

    《机器学习》--周志华 (第十章学习笔记)

主成分分析

是一种常用的降维方法

  • 正交属性空间中的样本点,如何使用一个超平面对所有样本进行恰当的表达?
    • 若存在这样的超平面,那么它大概应具有这样的性质:
    • 最近重构性能:样本点到这个超平面的距离都足够近
    • 最大可分性:样本点在这个超平面上的投影能尽可能分开

《机器学习》--周志华 (第十章学习笔记)

  • PCA可用于人脸识别中,称为“特征脸”

    将得到的d’个特征值对应的特征向量还原为图像