线性回归(估计方法 参数估计)——学习笔记
什么数据?什么场景?
适用于连续型数据,因变量y是连续型数据;
应用于产生连续型的y的场景。
- 一定有不确定性(无法罗列所有指标)
- 函数形式要简单 从常数到进一步的简单函数模型即为线性回归。
- 如果表达式没有ε,那么就是简单的线性方程表达式;加上不确定性指标ε,才是线性回归模型。
ε:统计学的精髓
简单好用的模型——只是近似逼近而不是数据的来源。
如果β1是0,那么说明在给定其他解释性变量的情况下,X1对Y无影响
特别关心回归系数!
基于在控制了其他变量的情况下,
β1=0,X不重要;β1!=0,X则很重要
β1>0正相关;β1<0负相关;
系数大 大相关;系数小 小相关
为何要关注其他变量的控制
如果直接画了散点图 可能可以发现X1与Y是正相关的关系 ;但固定了X2、3后可能会发现相关性不是那么强了。
最小二乘估计
平方和分解
SST:y的变异性——SST 是否可以表达不同样本之间的差异;
变异性越大包含的信息量越多。
RSS:刻画的是残差中包含着多少信息
Yi 和 根据Y=β0+β1X1+……βpXp得到的Yi的预测值 的差距
这种差距就来自于ε不确定值;即X无法解释的残差造成的。
将残差的平方和除以有关样本量的一个调整值 如n-p-1 得到一个残差的无偏估计。
判定系数:内样本
RSS0:也就是空模型无X的情况下的残差平方和 等于SST
RSS1:残差平方和
RSS0 SST Y中包含多少信息
RSS1 残差中还包含多少信息
RSS1/RSS0 即Y中信息多少是解释变量无法解释的,
则1-RSS1/RSS0 就是X可以解释的部分,因此 R2越大越好。
但R方永远偏好全模型 也就是复杂模型;
因此人们引入调整后的R方。
判决系数 :外样本
数据 分成 训练数据和验证数据
本讲我学会的内容 |
|
|
线性方程和线性回归的区别 |
线性方程:y=ax1+bx2+……+nxn 线性回归模型: Y=β1X1+β2X2+……+βnXn+ε |
精髓在于不确定性 即不确定的指标ε
|
回归系数 |
回归系数是控制其他因素后得出的,等于0时说明实际上该变量无影响不重要。 |
在做描述性统计的时候可能会看到Y与X1的图像可能成正相关,但进行对其他的指标进行控制后,X1的回归系数未必为正! |
最小二乘估计 |
说的比较高端,其实就是样本值和模型值的差的平方 |
要使预测函数尽可能的逼近所有的点,所以就需要让差值尽可能的小,取平方的目的是抵消正负带来的误差,实际上取绝对值也是一样的。 |
SST的意义 |
每一个Y值和Y的均值的差的平方和 |
代表Y的变异性和包含的信息量,举个栗子,如果所有的Y都是常数,那么样本之间的差异性失去了,做统计就没有了意义。 |
RSS的意义 |
拿线性回归方程(不包含不确定值ε的表达式)得到的预测值和实际值进行差值平方和 |
代表了除了给出的解释性变量X之外的可能性还有的信息;除以自由度后得到残差的无偏估计 |
R方的意义 |
即X们包含的信息,对Y信息的解释的占比; RSS0:空模型 即无X时本身蕴含的信息量 RSS1:残差中所包含的信息,用1-RSS0/RSS1,那么就是X变量所蕴含的信息。 |
那么必然希望R方可以越大越好 问题在于当我们加入新的X解释变量时,无论是否相关,R方都会增加;也即R方更偏好于全模型即越复杂约越好,针对这样的情况。人们提出了调整后的R方 |
调整后R方 |
即加入自由度这个限定因素 |
每加入一个X 那么p→p+1 |