西瓜书复习:线性模型
线性模型试图学一个通过属性的线性组合进行预测的函数,即
一般用向量形式
学得w和b后,模型即确定。w直观表达了各属性在预测中的重要性。
对离散属性,若属性值间存在序关系,可通过连续化将其转化为连续值。若不存在序关系,通常转化为one-hot向量。
回归任务常用均方误差来度量,因此可让均方误差最小化,即
均方误差有很好的几何意义,对应了欧氏距离。可用最小二乘法最小化均方误差来求解模型。最小二乘法试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
将数据集D表示为一个m(d+1)的矩阵X,每行前d个元素对应d个属性值,最后一个元素置为1,对应w0
现实任务中XTX往往不是满秩矩阵,X的列数多于行数,此时可解出多个w,选择哪个解作为输出,常见的做法是引入正则化项。
我们希望预测值逼近真实y,也可以逼近y的衍生物,如对数线性回归:
实质上是求取输入空间到输出空间的非线性函数映射。广义定义,对单调可微函数g
Logistic回归
若将y视为x为正例的可能性,则1-y为x为反例的可能性,二者比值反映了x为正例的相对可能性。
该方法有很多优点,直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确带来的问题。
如何确定w和b?
将y视为类后验概率估计
通过极大似然法估计w和b,令每个样本属于其真实标记的概率越大越好。
线性判别分析(LDA)
亦称为"Fisher判别分析"。LDA的思想非常朴素,给定训练样例集,设法将样例投影到一条直线上,使同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,根据投影点的位置来确定新样本的类别。
Xi、μi、Σi分别表示第i类示例的集合、均值向量、协方差矩阵。
w可以理解为这条直线的单位方向向量,
θ为w和x两个向量的夹角,通过wTx,所有的点转换为这条直线上的点。用均值向量带代表各类样本的中心
数据科学家Fisher提出了方差分析,同类样本的距离尽可能接近,根据方差分析,同类的组内偏差尽可能小,若x属于第0类,则第0类的组内偏差相加为
即为第0类的协方差矩阵,衡量变量之间的线性相关关系
协方差与相关性:若两个变量相互独立,则协方差为0;若两个变量的协方差不为0,它们一定是相关的。协方差矩阵的对角元是方差。
类内散度矩阵即为
第0类和第1类的组间偏差为
即类间散度矩阵为
欲使同类样本的投影点尽可能接近,可让同类样本点的协方差尽可能小;欲使异类样本的投影点尽可能远离,可以让类中心之间的距离尽可能大,同时考虑二者,即最大化目标
目标函数为
LDA可以从贝叶斯决策理论的角度来阐释,当两类数据同先验、满足高斯分布且协方差相等时,LDA可以达到最优分类。
LDA推广到多分类任务,假设有N个类,定义全局散度矩阵
μ是所有样本的均值向量。雷内散度矩阵定义为每个类别的散度矩阵之和,即
若将W视为一个投影矩阵,则多分类LDA将样本投影到d’维空间,d’通常远小于数据原有的属性数d。因此可通过投影减小样本点的维数,且投影过程使用了类别信息,LDA常被视为一种经典的监督降维技术。