《西瓜书》笔记03:线性模型之线性回归(1)
1. 基本形式
线性模型的优点:,
- 形式简单,易于建模。
- 蕴含着机器学习中一些重要思想。许多功能更为强大的非线性模型,可在线性模型的基础上通过引入层级结构或高维映射得到。
- 良好的可解释性:w直观地表达了各属性在预测中的重要性,使得其具有很好的解释性。权重越大,代表该属性的重要程度越高。
2. 线性回归
linear regression,LR。
当输出值为实数取值时,LR试图学习一个线性模型,尽可能准确的预测实值输出值。
对离散属性,若属性值存在“序”的关系,可通过连续化将其转化为连续值。如高度的高、中、低可转化为{1.0, 0.5, 0.0}。
若属性值不存在序关系,连续化会不恰当,对后续距离计算造成误导。如瓜类的取值有黄瓜,南瓜,西瓜,就不可连续化。此时可通过one-hot编码:转化为(0,0,1)(0,1,0)(1,0,0)。
学习策略:极小化模型预测输出和真实值之间的差距。回归任务最常用的是均方误差/平方损失。
均方误差的几何意义:对应了常用的欧氏距离。最小化均方误差,试图找到一条直线,让所有样本到直线上的欧氏距离之和最小。
基于均方误差最小化来进行模型求解的方法:最小二乘法(least square method)。
求解过程,称为线性回归模型的最小二乘参数估计。当x只有1维时(w自然只有一维),对w和b求导,得到:
令偏导为0则得到最优解的闭式解/解析解:
当x由d个属性描述时,试图学得:
此时称为多元线性回归。
有:
对其求导有:
现实任务中
线性模型虽然简单,但变化丰富。
可否令模型预测值逼近y的衍生物呢?比如可将输出标记的对数作为线性模型逼近的目标。
此即为对数线性回归(log-linear regression)。实际上是用 逼近y。
形式上仍是线性模型,但实际上在求取输入空间到输出空间的非线性映射。对数函数的作用:将线性模型的预测值与真实标记联系起来。
更一般的,考虑单调可微函数g(·):
这就是广义线性模型。g(·)为联系函数。实际上先求出线性模型的值,再通过联系函数映射到非线性。