您的位置: 首页 > 文章 > 线性回归原理推导与算法描述

线性回归原理推导与算法描述

分类: 文章 • 2024-11-06 22:42:40

目录

二、原理与推导

三、算法描述

一、概念

线性回归（Linear Regression）是一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。

线性回归原理推导与算法描述

二、特点

优点：结果具有很好的可解释性（w00直观表达了各属性在预测中的重要性），计算熵不复杂。
缺点：对非线性数据拟合不好
使用数据类型：数值型和标称型数据

三、原理与推导

1. 给定数据集线性回归原理推导与算法描述，其中，（线性回归的输出空间是整个实数空间）。是样本数，是属性维度。

线性回归试图学得：

线性回归原理推导与算法描述（1），使得。

为便于讨论，使线性回归原理推导与算法描述，其中。此时，就成为了，就成为了，期望学得的函数为。

2. 预测值和真实值之间都肯定存在差异线性回归原理推导与算法描述，对于每个样本：

线性回归原理推导与算法描述（2）

假设误差线性回归原理推导与算法描述是独立同分布的，并且服从高斯分布。即：

线性回归原理推导与算法描述（3）

将（2）代入（3）中，得到在已知参数线性回归原理推导与算法描述和数据的情况下，预测值为的条件概率：

线性回归原理推导与算法描述（4）

3. 将（4）连乘得到在已知参数线性回归原理推导与算法描述和数据的情况下，预测值为的条件概率，这个条件概率在数值上等于，likelihood（w|x,y），也就是在已知现有数据的条件下，w是真正参数的概率，即似然函数（5）：

线性回归原理推导与算法描述（5）

为什么要引入似然函数？为了根据样本估计参数值。

由于乘法难解，通过对数可以将乘法转换为加法，简化计算（为什么要对似然函数进行log变换？）。

对数似然函数：

线性回归原理推导与算法描述（6）

得到目标函数：

线性回归原理推导与算法描述（7）（最小二乘法）

似然函数表示样本成为真实的概率，似然函数越大越好，也就是目标函数越小越好（为什么要让目标函数越小越好？）。

4. 目标函数是凸函数，只要找到一阶导数为0的位置，就找到了最优解。

因此求偏导：线性回归原理推导与算法描述（8）

5. 令偏导等于0：

线性回归原理推导与算法描述（9）

得到：

线性回归原理推导与算法描述（10）

情况一：线性回归原理推导与算法描述可逆，唯一解。令公式（10）为零可得最优解为：

线性回归原理推导与算法描述（11）

学得的线性回归模型为:

线性回归原理推导与算法描述（12）

情况二：线性回归原理推导与算法描述不可逆，可能有多个解。选择哪一个解作为输出，将有学习算法的偏好决定，常见的做法是增加扰动。

线性回归原理推导与算法描述（13）

四、算法描述

1. 从数据集D出发，构建输入矩阵X和输出向量y。

线性回归原理推导与算法描述

2. 计算伪逆（pseudo-inverse）线性回归原理推导与算法描述。

3. 返回线性回归原理推导与算法描述，学得的线性回归模型为。

参考文献：

1. 《机器学习基石课程》lecture_9_Linear_Regression-林轩田

2. 《机器学习》第三章线性回归-周志华