线性回归(估计方法 参数估计)——学习笔记

线性回归(估计方法 参数估计)——学习笔记 什么数据?什么场景?

适用于连续型数据,因变量y是连续型数据;

应用于产生连续型的y的场景。

线性回归(估计方法 参数估计)——学习笔记

  1. 一定有不确定性(无法罗列所有指标)
  2. 函数形式要简单 从常数到进一步的简单函数模型即为线性回归。
  3. 如果表达式没有ε,那么就是简单的线性方程表达式;加上不确定性指标ε,才是线性回归模型。

线性回归(估计方法 参数估计)——学习笔记 ε:统计学的精髓

线性回归(估计方法 参数估计)——学习笔记 简单好用的模型——只是近似逼近而不是数据的来源。

如果β1是0,那么说明在给定其他解释性变量的情况下,X1对Y无影响

线性回归(估计方法 参数估计)——学习笔记特别关心回归系数!

基于在控制了其他变量的情况下

β1=0,X不重要;β1!=0,X则很重要

β1>0正相关;β1<0负相关;

系数大 大相关;系数小  小相关

线性回归(估计方法 参数估计)——学习笔记 为何要关注其他变量的控制

如果直接画了散点图  可能可以发现X1与Y是正相关的关系 ;但固定了X2、3后可能会发现相关性不是那么强了。

线性回归(估计方法 参数估计)——学习笔记 最小二乘估计

 

线性回归(估计方法 参数估计)——学习笔记

线性回归(估计方法 参数估计)——学习笔记 平方和分解

 

线性回归(估计方法 参数估计)——学习笔记

线性回归(估计方法 参数估计)——学习笔记 SST:y的变异性——SST 是否可以表达不同样本之间的差异;

变异性越大包含的信息量越多。

线性回归(估计方法 参数估计)——学习笔记 RSS:刻画的是残差中包含着多少信息

Yi 和 根据Y=β0+β1X1+……βpXp得到的Yi的预测值 的差距

这种差距就来自于ε不确定值;即X无法解释的残差造成的。

将残差的平方和除以有关样本量的一个调整值 如n-p-1 得到一个残差的无偏估计。

线性回归(估计方法 参数估计)——学习笔记 判定系数:内样本

线性回归(估计方法 参数估计)——学习笔记

RSS0:也就是空模型无X的情况下的残差平方和  等于SST

RSS1:残差平方和

RSS0 SST Y中包含多少信息

RSS1 残差中还包含多少信息

RSS1/RSS0 即Y中信息多少是解释变量无法解释的,

则1-RSS1/RSS0 就是X可以解释的部分,因此 R2越大越好。

但R方永远偏好全模型 也就是复杂模型;

因此人们引入调整后的R方。

线性回归(估计方法 参数估计)——学习笔记 判决系数 :外样本

数据 分成 训练数据和验证数据

本讲我学会的内容

 

 

 

线性方程和线性回归的区别

线性方程:y=ax1+bx2+……+nxn

线性回归模型:

Y=β1X1+β2X2+……+βnXn+ε

精髓在于不确定性

即不确定的指标ε

 

回归系数

回归系数是控制其他因素后得出的,等于0时说明实际上该变量无影响不重要。

在做描述性统计的时候可能会看到Y与X1的图像可能成正相关,但进行对其他的指标进行控制后,X1的回归系数未必为正!

最小二乘估计

说的比较高端,其实就是样本值和模型值的差的平方

要使预测函数尽可能的逼近所有的点,所以就需要让差值尽可能的小,取平方的目的是抵消正负带来的误差,实际上取绝对值也是一样的。

SST的意义

每一个Y值和Y的均值的差的平方和

代表Y的变异性和包含的信息量,举个栗子,如果所有的Y都是常数,那么样本之间的差异性失去了,做统计就没有了意义。

RSS的意义

拿线性回归方程(不包含不确定值ε的表达式)得到的预测值和实际值进行差值平方和

代表了除了给出的解释性变量X之外的可能性还有的信息;除以自由度后得到残差的无偏估计

R方的意义

即X们包含的信息,对Y信息的解释的占比;

RSS0:空模型 即无X时本身蕴含的信息量 RSS1:残差中所包含的信息,用1-RSS0/RSS1,那么就是X变量所蕴含的信息。

那么必然希望R方可以越大越好

问题在于当我们加入新的X解释变量时,无论是否相关,R方都会增加;也即R方更偏好于全模型即越复杂约越好,针对这样的情况。人们提出了调整后的R方

调整后R方

即加入自由度这个限定因素

每加入一个X 那么p→p+1