线性回归（估计方法参数估计）——学习笔记

线性回归（估计方法参数估计）——学习笔记什么数据？什么场景？

适用于连续型数据，因变量y是连续型数据；

应用于产生连续型的y的场景。

一定有不确定性（无法罗列所有指标）
函数形式要简单从常数到进一步的简单函数模型即为线性回归。
如果表达式没有ε，那么就是简单的线性方程表达式；加上不确定性指标ε，才是线性回归模型。

线性回归（估计方法参数估计）——学习笔记 ε：统计学的精髓

线性回归（估计方法参数估计）——学习笔记简单好用的模型——只是近似逼近而不是数据的来源。

如果β1是0，那么说明在给定其他解释性变量的情况下，X1对Y无影响

线性回归（估计方法参数估计）——学习笔记特别关心回归系数！

基于在控制了其他变量的情况下，

β1=0，X不重要；β1！=0，X则很重要

β1>0正相关；β1<0负相关；

系数大大相关；系数小小相关

线性回归（估计方法参数估计）——学习笔记为何要关注其他变量的控制

如果直接画了散点图可能可以发现X1与Y是正相关的关系；但固定了X2、3后可能会发现相关性不是那么强了。

线性回归（估计方法参数估计）——学习笔记最小二乘估计

线性回归（估计方法参数估计）——学习笔记

线性回归（估计方法参数估计）——学习笔记平方和分解

线性回归（估计方法参数估计）——学习笔记

线性回归（估计方法参数估计）——学习笔记 SST：y的变异性——SST 是否可以表达不同样本之间的差异；

变异性越大包含的信息量越多。

线性回归（估计方法参数估计）——学习笔记 RSS：刻画的是残差中包含着多少信息

Yi 和根据Y=β0+β1X1+……βpXp得到的Yi的预测值的差距

这种差距就来自于ε不确定值；即X无法解释的残差造成的。

将残差的平方和除以有关样本量的一个调整值如n-p-1 得到一个残差的无偏估计。

线性回归（估计方法参数估计）——学习笔记判定系数：内样本

线性回归（估计方法参数估计）——学习笔记

RSS0：也就是空模型无X的情况下的残差平方和等于SST

RSS1：残差平方和

RSS0 SST Y中包含多少信息

RSS1 残差中还包含多少信息

RSS1/RSS0 即Y中信息多少是解释变量无法解释的，

则1-RSS1/RSS0 就是X可以解释的部分，因此 R2越大越好。

但R方永远偏好全模型也就是复杂模型；

因此人们引入调整后的R方。

线性回归（估计方法参数估计）——学习笔记判决系数：外样本

数据分成训练数据和验证数据

本讲我学会的内容
线性方程和线性回归的区别	线性方程：y=ax1+bx2+……+nxn 线性回归模型： Y=β1X1+β2X2+……+βnXn+ε	精髓在于不确定性即不确定的指标ε
回归系数	回归系数是控制其他因素后得出的，等于0时说明实际上该变量无影响不重要。	在做描述性统计的时候可能会看到Y与X1的图像可能成正相关，但进行对其他的指标进行控制后，X1的回归系数未必为正!
最小二乘估计	说的比较高端，其实就是样本值和模型值的差的平方	要使预测函数尽可能的逼近所有的点，所以就需要让差值尽可能的小，取平方的目的是抵消正负带来的误差，实际上取绝对值也是一样的。
SST的意义	每一个Y值和Y的均值的差的平方和	代表Y的变异性和包含的信息量，举个栗子，如果所有的Y都是常数，那么样本之间的差异性失去了，做统计就没有了意义。
RSS的意义	拿线性回归方程（不包含不确定值ε的表达式）得到的预测值和实际值进行差值平方和	代表了除了给出的解释性变量X之外的可能性还有的信息；除以自由度后得到残差的无偏估计
R方的意义	即X们包含的信息，对Y信息的解释的占比； RSS0：空模型即无X时本身蕴含的信息量 RSS1：残差中所包含的信息，用1-RSS0/RSS1，那么就是X变量所蕴含的信息。	那么必然希望R方可以越大越好问题在于当我们加入新的X解释变量时，无论是否相关，R方都会增加；也即R方更偏好于全模型即越复杂约越好，针对这样的情况。人们提出了调整后的R方
调整后R方	即加入自由度这个限定因素	每加入一个X 那么p→p+1

线性回归（估计方法 参数估计）——学习笔记

相关推荐

线性回归（估计方法参数估计）——学习笔记