您的位置: 首页 > 文章 > 机器学习基础-线性回归算法

机器学习基础-线性回归算法

分类: 文章 • 2024-11-11 17:14:10

简单的线性回归

什么是简单线性回归？
所谓简单，是指只有一个样本特征，即只有一个自变量；所谓线性，是指方程是线性的；所谓回归，是指用方程来模拟变量之间是如何关联的。
简单线性回归，其思想简单，实现容易（与其背后强大的数学性质相关。同时也是许多强大的非线性模型（多项式回归、逻辑回归、SVM）的基础。并且其结果具有很好的可解释性。
基本的推导思路
我们所谓的建模过程，其实就是找到一个模型，最大程度的拟合我们的数据。在简单线回归问题中，模型就是我们的直线方程：y = ax + b 。
要想最大的拟合数据，本质上就是找到没有拟合的部分，也就是损失的部分尽量小，就是损失函数（loss function）：

因此，推导思路为：

通过分析问题，确定问题的损失函数或者效用函数；
然后通过最优化损失函数或者效用函数，获得机器学习的模型
近乎所有参数学习算法都是这样的套路，区别是模型不同，建立的目标函数不同，优化的方式也不同。
回到简单线性回归问题，目标：
已知训练数据样本x, y，找到a和b的值，使得如下的方程能够尽可能的小，这是一个典型的最小二乘法的问题（最小化误差的平方）

通过最小二乘法得到a, b的表达式为：

损失函数
损失函数描述了单个样本预测值和真实值之间误差的程度。用来度量模型一次预测的好坏。
损失函数是衡量预测模型预测期望结果表现的指标。损失函数越小，模型的鲁棒性越好。。
常用损失函数有：

0-1损失函数：用来表述分类问题，当预测分类错误时，损失函数值为1，正确为0
平方损失函数：用来描述回归问题，用来表示连续性变量，为预测值与真实值差值的平方。（误差值越大、惩罚力度越强，也就是对差值敏感）

机器学习基础-线性回归算法

绝对损失函数：用在回归模型，用距离的绝对值来衡量
对数损失函数：是预测值Y和条件概率之间的衡量。事实上，该损失函数用到了极大似然估计的思想。P(Y|X)通俗的解释就是：在当前模型的基础上，对于样本X，其预测值为Y，也就是预测正确的概率。由于概率之间的同时满足需要使用乘法，为了将其转化为加法，我们将其取对数。最后由于是损失函数，所以预测正确的概率越高，其损失值应该是越小，因此再加个负号取个反。

以上损失函数是针对于单个样本的，但是一个训练数据集中存在N个样本，N个样本给出N个损失，如何进行选择呢？

简单线性回归的代码实现
具体代码可参考该链接
多元线性回归

算法可参考该链接