基础线性回归

一、数据

(x(1),y(1)),(x(1),y(1)),…,(x(m),y(m))
x(i)是n维向量, y(i)是连续实数
向量全是列向量

二、假设函数h

基础线性回归
设x(j)0=0为恒为1,得到向量表示
基础线性回归
此时x(i)为n+1维向量,下标为0~n

三、损失函数

(1)MSE(均方误差)

基础线性回归

(2)直观的感觉

基础线性回归
所有实际值与预测值距离的平方和

(3)为什么是均方误差

首先假设目标变量和输入值存在下面这种等量关系:
基础线性回归
最右边一项为误差,由多个因素共同导致,每一个因素就是一个分布,由中心极限定理可得,这一项误差满足高斯分布,概率密度函数为:
基础线性回归
y(i)是误差加上预测项,则y(i)与误差同分布,就是均值需要改变
基础线性回归
假设每个样本独立,极大化似然函数
基础线性回归
将其中的常量去掉,添加负号,那么我们就是要最小化下面这个式子:
基础线性回归

(4)性质

线性回归的loss_function为凸函数
基础线性回归
实际上不太可能出现全部样本的某一维特征全为0,所以不取等号
二次导数大于0,为凸函数

四、优化参数

(1)梯度下降

<1> 批量梯度下降(BGD)

基础线性回归
注意:
(1)此时参数需要加上所有的样本贡献的梯度,这个跨度有点大,最好取个平均,不然一次下降就不知道跑哪儿去了
(2)同理,学习率的设置也得合理

<2>随机梯度下降(SGD)

基础线性回归
数据规模大的时候最好使用

<3>mini-batch 梯度下降

选取一部分数据来做批量梯度下降,是二者的平均,实际中经常把mini-batch梯度下降叫做随机梯度下降(说是SGD,其实用的这个)

(2)最小二乘法

改写损失函数为向量形式
基础线性回归
写开
基础线性回归
对向量求导
基础线性回归