一元线性回归模型
假设x是自变量,y是因变量,且满足如下线性关系yi=β0+β1xi+μiβ0和β1为回归系数,μi为无法观测地且满足一定条件地扰动项令预测值yi^=β0^+βi^xi其中β0^,β1^=argmin(i=1∑n(yi−yi^)2)=argmin(i=1∑n(yi−β0^−βi^xi)2)β0^,β1^=argmin(i=1∑n(mui^)2)我们称μi^=yi−β0^−βi^xi为残差
对于线性地理解
假设x是自变量,y是因变量,且满足如下线性关系:yi=β0+β1xi+μi
线性假定并不要求初始模型都呈上述地严格线性关系,自变量与因变量可以通过变量变换儿转化称线性模型

回归系数地解释

从图中可以看出,由于多加入了一个变量x2导致x1前面的系数变化很大,而这是由内生性导致的。
内生性
假设我们的模型为:Y=β0+β1x1+β2x2+⋯+βkxk+μμ为无法观测满足的且满足一定条件的扰动项如果满足误差项mu和所有的自变量x均不相关,测称该回归模型具有外生性(如果相关,则存在内生性,内生性会导致回归系数估计不准确,不满足无偏和一致性)
回到刚才的例子中:误差项μi包含了什么
包含了多有与y相关,但未添加到回归模型中的变量,而如果这些变量和我们已经添加的自变量相关,则存在内生性
核心解释变量和控制变量
因为五内生性要求所有的解释变量均与扰动项不相关。而这个假定通常太强了,因为解释变量一般很多,且需要保证它们全部外生。
而我们可以通过将解释变量分为核心解释变量与控制变量两类
核心解释变量:我们最感兴趣的变量,因此我们特别希望的到对其系数一致估计(当样本容量无限增大时,收敛于待估计参数的真值)。
控制变量:我们可能对于这些变量并无太大的兴趣;而之所以把它们也放入回归方程,主要是为了“控制住”那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与u不相关即可