因果关系基本概念:贝叶斯网络和概率分布
阅读David Salazar的文章Causality: Bayesian Networks and Probability Distributions后的笔记
目录
动机
“相关性不意味着因果关系”。但经常有人试图将控制变量加入回归方程中,以试图估计因果效应,这是一种错误的想法。
贝叶斯网络
将概率分布与有向图结合了起来,因此可以使用d-分割标准(d-separation criterion)对目标变量的独立和非独立变量进行判别。
d-分割:中断信息的流动
三种基本模式:
链式路径(chain):
分岔路径(fork):
对撞路径(collider):
供实验的工具:dagitty
回到本质问题:能否从数据中学习到模型
模型对于数据来说不是唯一的,不同的模型能蕴涵(imply)相同的条件独立(conditional independence)。因此,当两个模型和
蕴涵相同的条件独立性,那么可认为它们是表象一致(observationally equivalent)的。将这些无法区分条件独立性的模型之集合称为等价类(equivalent class)。
(图片来自笔者所阅读的博客)
如上图所示,单凭数据是无法区分三种假设的因果关系的。
因此,仅仅凭借观测数据(observational data)无法获取对因果关系的理解,必须首先建立模型假设,才能预测出任何干预/治疗/接触(intervention/treatment/exposure)带来的影响。