因果关系基本概念:需不需要调节变量

阅读David Salazar的文章Causality: To adjust or not to adjust后的笔记

文章目录


动机

  在前面的文章中,我们知道控制更多的变量不是一个好主意,因此采用后门标准(backdoor-criterion)去判断应该控制哪些变量。

  观测数据下隐藏着干涉数据,因此我们需要使用调节方程式(1)去估计因果效应,但根据d-分割标准,不恰当的调节变量会存在两方面的问题:⑴错误的调节不该被调节的变量,导致无关的因果路径被打开;⑵变量在现实中无法被观测,因此无法接受调节。
P ( Y = y ∣ d o ( X = x ) ) : = ∑ z P ( Y = y ∣ X = x , P A = z ) P ( P A = z ) (1) P(Y=y|do(X=x)):=\sum_z P(Y=y|X=x,PA=z)P(PA=z) \tag{1} P(Y=ydo(X=x)):=zP(Y=yX=x,PA=z)P(PA=z)(1)

实例

  我们想知道 X X X Y Y Y的因果效应,并且 a a a无法观测,因果图如下图所示。(因果图的绘制、路径生成和后门标准使用R语言的dagitty和ggdag绘制)
因果关系基本概念:需不需要调节变量
  从 X X X Y Y Y的路径有4条,如下图所示。但是真正的因果(即 X X X流向 Y Y Y的影响关系)只有下图的子图1所示。其他的都是受混杂因子影响的 X X X Y Y Y的伪成因。
因果关系基本概念:需不需要调节变量
  使用后门标准,我们能找到合适的变量进行控制/调节,因此可调节的变量和调节后的因果关系如下图所示。后门标准解释一句,指的是调节流向 X X X的变量,以达到去混杂的目的。(这里需要读者熟悉d-分割的三种基本模式
因果关系基本概念:需不需要调节变量
  由于 a a a无法观测,选择上图的 { b , z } \{b,z\} {b,z} { c , z } \{c,z\} {c,z} { d , z } \{d,z\} {d,z}进行调节,就可以准确分析出 X X X Y Y Y的因果效应。