如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)

断点回归涉及的知识点挺多的,相关文章介绍也很详细了,相信香樟的【经典回顾】运用断点回归设计做研究的规定动作大家都已经看过(没看过赶紧去补补课!)。
就连审稿人拒绝我的文章也顺带附了这篇推送(虽然这篇我已经看过无数遍),说明即使这篇推送把教程摆在我等菜鸡面前,我也用不会(呜呜呜,我是废物)。所以这里来讲讲我在使用断点回归中的一些困惑和解决办法,希望能给大家一点参考。如果有什么不对的地方,也请大家指正,评论区欢迎大家进行补充,希望能给用断点回归的后浪们更清楚的路径。
这里再放两篇我认为比较有价值的断点回归推送,是蓝鲸ols的原理介绍带宽选择

进入正题,RD的原理是“通过断点处一个天然跳跃造成关注变量的跳跃,从而识别因果”,换句话说,没有断点事件的干扰,这个变量本来会按它原本趋势继续下去。这就让我想到了DID,DID原理是有两个具有平行性趋势的组,在经过一个特殊事件后,treatment group的增长趋势发生改变,我们识别的就是treatment和control在事件后增长趋势的差异。那么,RD就是DID的一个特殊案例,假设为control和treatment事件前趋势完全相同(都是它自己)且连续,事件后,treatment group发生了变化,treatment发生的变化完全是由于这一个事件引起的;目前我们掌握的是,control group事件前数据和treatment group事件后数据,由于我们的前提假设,趋势相同且连续,我们可以推断出control group原本应具有的事件后趋势,从而比较treatment和control的区别,得出事件具体影响效果。
下面,RD的各种前提性检验就围绕着我们的假设展开。
如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)

连续性检验:检验配置变量

推文中的第一步是要检验配置变量是否被操纵。根据我们前面原理介绍,这一步就要保证treatment与control group间趋势相同且连续。这一点如何判断?就是我们使用的这些个体数据会不会自行进入断点两侧,决定是否进入实验,导致实验数据在断点两侧分布不均匀,从而影响连续性。具体在操作中就要检验驱动变量的密度函数连续性,常见做法就是画直方图、箱型图或者dcdensity作图。直方图可见【文献阅读】评估“八七扶贫计划”:基于RD方法如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)
DCdensity的图参考计量经济学服务中心(我自己画的找不到了,代码也同样找不到了…),这个图就要看到断点前后的区间基本重合,没有明显断层,关于DCdensity,大家就自行搜索了解哈:如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)
但这一部分其实在我论文中没有体现,我参考的很多文献也没有体现,我觉得可能原因是,我做的是环境方面实证研究,基本用的事件研究法研究空气状况在某一时间前后的变化,由于选用的城市不随断点发生变化,断点前后时间长度相同,空气质量不太可能被操控,所以这一部分要求比较宽松,我感觉劳动经济学会用,大家可以自行斟酌参考参考自己领域那些文献。

断点处变化的唯一性:前定变量的检验

在证明配置变量不是被操纵后,第二步我们需要证明,这个断点处产生的跳跃,完全是由于我们所关注的那个事件引起的,因此要排除其他相关变量在断点处产生跳跃的可能。此处要对我们的前定变量及配置变量画断点图(或者展示前定变量作为被解释变量的回归结果),最终我们要得到的结果是,前定变量在断点处没有发生跳跃,只有配置变量发生了跳跃。这样才能进行断点回归的分析(这些图是二手引用,我没列出最原始的引用源哈)。
如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)
如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)

关于画断点图和回归时有几个问题想跟大家分享一下:

  1. 多次项的选择,之前有文章说一般用到1到4次项,但近期发表的文献一般只用到一、二次项,我重点关注的几篇都只用了线性图,最终我也只采用了一次项。因为我做断点回归的样本数量不多(大概1000多),如果用的多项式阶数太大,可能会出现过度拟合的问题,就是原本没有断点,因为你的多项式阶数太大,画出来的拟合图弯弯绕绕影响结果准确性。我一开始本来一到四次项都做了,后来根据别人意见只保留了一次项,这里也写出来给大家参考参考。
  2. 是否要用非参估计,其实我看到的大部分文献都用的非参估计,因为他们的样本数量足够多,但我自己的样本数量实在不多,如果用非参可能不太准确,所以最后还是用的参数估计。应该大家看到的大多数文章都用的非参,一方面非参不用列出回归模型,像我们平时论文里的y=x1+x2这种常规模型不会列出来,都是使用方程式进行解释,如:如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)

这里顺带推荐一下这篇文章,里面用了RD和DID的方法,今年九月份他们已经发表了(Li P , Lu Y , Wang J . The effects of fuel standards on air pollution: Evidence from China[J]. Journal of Development Economics, 2020, 146:102488.),在我心目中,这篇做的很标准很清晰。另一方面,如果看到用核密度估计(IK、CCT等),那应该就是非参估计了。

下一节讲讲rd的相关命令。

References
https://mp.weixin.qq.com/s/QXv8LQF0mWRkC-pJEwo9AA
https://www.sohu.com/a/335991622_698752
https://mp.weixin.qq.com/s/7DVrv-p86VIZR3_l4VbkQg
https://mp.weixin.qq.com/s/-wZieV3XdtGVjF-hCqi6zA
Li P , Lu Y , Wang J . The effects of fuel standards on air pollution: Evidence from China[J]. Journal of Development Economics, 2020, 146:102488