线性判别分析(LDA)模型
基本原理
给定训练样集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能的接近,异类样本点尽可能地远离;在对新样本进行分类的时候,将其投影到同样的这条线上面,根据投影点的位置来确定样本的类别。
公式推导过程
二维示意图如下:
二分类投影函数:
类别投影后的中心点为:
衡量类别i投影后,类别点之间的分散程度(方差)为:
则LDA投影到w后的损失函数:
优化目标:类别中心点之间的距离越远越好,同类别数据分散程度越小越好;所以损失函数
将
定义:
类内散度:
类间散度:
则优化目标J(w)为:
令
拉格朗日乘子法求解:
将有约束的优化问题变为无约束的问题,上述问题可以用拉格朗日乘子法求解:
对
因此,转化为一个求特征值的问题,我们求出第i大的特征向量,就是对应的