基础线性回归
一、数据
(x(1),y(1)),(x(1),y(1)),…,(x(m),y(m))
x(i)是n维向量, y(i)是连续实数
向量全是列向量
二、假设函数h
设x(j)0=0为恒为1,得到向量表示
此时x(i)为n+1维向量,下标为0~n
三、损失函数
(1)MSE(均方误差)
(2)直观的感觉
所有实际值与预测值距离的平方和
(3)为什么是均方误差
首先假设目标变量和输入值存在下面这种等量关系:
最右边一项为误差,由多个因素共同导致,每一个因素就是一个分布,由中心极限定理可得,这一项误差满足高斯分布,概率密度函数为:
y(i)是误差加上预测项,则y(i)与误差同分布,就是均值需要改变
假设每个样本独立,极大化似然函数
将其中的常量去掉,添加负号,那么我们就是要最小化下面这个式子:
(4)性质
线性回归的loss_function为凸函数
实际上不太可能出现全部样本的某一维特征全为0,所以不取等号
二次导数大于0,为凸函数
四、优化参数
(1)梯度下降
<1> 批量梯度下降(BGD)
注意:
(1)此时参数需要加上所有的样本贡献的梯度,这个跨度有点大,最好取个平均,不然一次下降就不知道跑哪儿去了
(2)同理,学习率的设置也得合理
<2>随机梯度下降(SGD)
数据规模大的时候最好使用
<3>mini-batch 梯度下降
选取一部分数据来做批量梯度下降,是二者的平均,实际中经常把mini-batch梯度下降叫做随机梯度下降(说是SGD,其实用的这个)
(2)最小二乘法
改写损失函数为向量形式
写开
对向量求导