因果关系基本概念:贝叶斯网络和概率分布

阅读David Salazar的文章Causality: Bayesian Networks and Probability Distributions后的笔记

目录

动机

贝叶斯网络

d-分割:中断信息的流动

回到本质问题:能否从数据中学习到模型


动机

“相关性不意味着因果关系”。但经常有人试图将控制变量加入回归方程中,以试图估计因果效应,这是一种错误的想法。

贝叶斯网络

将概率分布与有向图结合了起来,因此可以使用d-分割标准(d-separation criterion)对目标变量的独立和非独立变量进行判别。

d-分割:中断信息的流动

三种基本模式:

链式路径(chain):因果关系基本概念:贝叶斯网络和概率分布

分岔路径(fork):因果关系基本概念:贝叶斯网络和概率分布

对撞路径(collider):因果关系基本概念:贝叶斯网络和概率分布

供实验的工具:dagitty

回到本质问题:能否从数据中学习到模型

模型对于数据来说不是唯一的,不同的模型能蕴涵(imply)相同的条件独立(conditional independence)。因此,当两个模型因果关系基本概念:贝叶斯网络和概率分布因果关系基本概念:贝叶斯网络和概率分布蕴涵相同的条件独立性,那么可认为它们是表象一致(observationally equivalent)的。将这些无法区分条件独立性的模型之集合称为等价类(equivalent class)。

因果关系基本概念:贝叶斯网络和概率分布

(图片来自笔者所阅读的博客

如上图所示,单凭数据是无法区分三种假设的因果关系的。

因此,仅仅凭借观测数据(observational data)无法获取对因果关系的理解,必须首先建立模型假设,才能预测出任何干预/治疗/接触(intervention/treatment/exposure)带来的影响。