如何用简单的统计学问题“戏弄”聪明的数据科学家


如何用简单的统计学问题“戏弄”聪明的数据科学家


全文共2446字,预计学习时长5分钟


如何用简单的统计学问题“戏弄”聪明的数据科学家

来源:Pexels


“概率是生命的向导。”


——列纳德·蒙洛迪诺, 《醉汉的脚步:随机性如何支配我们的生活》


首先,确保你想戏弄的人真的聪明。              

 

其次,提的问题需直观易懂。             

 

事实上,在互联网领域,仍存争议的严谨话题所剩无几(因为有谷歌和维基百科)。             

 

但今天笔者要讨论的是过去几年在互联网上引起激烈讨论的话题。科学专家和数据科学家在这一问题上各有看法。             


事不宜迟,现在开始吧。

 

如何用简单的统计学问题“戏弄”聪明的数据科学家


如何用简单的统计学问题“戏弄”聪明的数据科学家

先来看问题


列纳德·蒙洛迪诺是一名物理学家,他与斯蒂芬·霍金合著了《宏伟设计》一书。他的著作《醉汉的脚步:随机性如何只陪我们的生活》还谈到了随机性,以及导致人们误解随机事件和随机过程的认知偏见。 
 
在介绍“样本空间”概念的章节中,蒙洛迪诺使用了以下示例:
             
问题A:儿子还是女儿     
      
我的朋友尼克有两个孩子,他告诉你他至少有一个女儿,那么另一个孩子是女孩的概率是多少?       
    
 这似乎是一个简单的问题,直接的回答是:已知其中一个是女孩,所以另一个孩子是女孩的几率应该是50%,对吗?   
         
不对。
 
根据样本空间理论,可以如下列出所有可能的样本组合:
 
如何用简单的统计学问题“戏弄”聪明的数据科学家
 
表中显示,答案是1/3,即,33.3%。             
 
蒙洛迪诺指出,这个问题令人困惑的部分是题目内容,如果题中指定第一个孩子为女孩,那么第二个孩子为女孩的概率是50%。
 
如何用简单的统计学问题“戏弄”聪明的数据科学家

辩论


然而,另一位有识之士不同意蒙洛迪诺的理论。      
      
加里·史密斯(Gary Smith)是波莫纳学院(Pomona College)的经济学教授。他在耶鲁大学获得经济学博士学位,后被聘为助理教授。        
    
他在《基本统计、回归和计量经济学》一书中引用了上述蒙洛迪诺采用的例子,认为这是对现实世界的典型误解,并从另一角度提出了问题。  
          
问题B:另一个孩子             
 
你看到我的朋友尼克和他的女儿在街上散步。尼克告诉你他家里还有一个孩子,那么,另一个孩子是女孩的概率有多大?    
         
这个问题看起来和蒙洛迪诺提出的问题十分相似,但加里却给出了完全不同的答案与解析。             

首先,他指出蒙洛迪诺“33.3%”的答案是错误的,然后他通过下表中的推算给出了自己的正确答案。
 
如何用简单的统计学问题“戏弄”聪明的数据科学家
 
男孩用B表示,因此BB表示第一个孩子是男孩,同理,第二个孩子也是男孩。 
           
女孩用G表示,BG表示第一个孩子是男孩,第二个是女孩。     
       
该表显示了400个家庭平均分配了4种孩子类型,即,每种类型为100。根据加里所证,可以得出以下推论:
 
已知事实
 
·     在100例的BB中,尼克应该总是和男孩散步。
·     在100例的GG中,尼克应该总是和女孩散步。
·     如果尼克有儿有女,则合理的假设是,他和男孩或女孩一起散步的概率是相同的。
                                      
分析
 
·     观察表格的第一行。当尼克和一个女孩散步时,其中有100例(GG)表明另一位不在场的孩子也是女孩,而其他50+50例(BG&GB)则表明缺席的孩子是男孩。

·     当尼克和一个男孩散步时,也可以做出同样的推论,因此,比较BB与BG+GB(100 vs 50+50),也可以得出同样的结论
 
结论
 
不管现在和尼克散步的是男孩还是女孩,另一个孩子是“男孩或女孩”概率保持不变(它们是自变量)因此答案是1/2,而不是1/3。   
         
当然,还有一个更为直观的解释:你看到一个女孩,这是一个独立的事件,对其他孩子的性别没有影响。           
 
如果你现在还没有丝毫的困惑,那么你可能对这个问题还只停留在表面理解上(也可能你是个真正的天才,那便来看看下面的解释是否与你的思维过程相同)
 
如何用简单的统计学问题“戏弄”聪明的数据科学家

深入探讨这个问题…


如何用简单的统计学问题“戏弄”聪明的数据科学家

那么,加里和蒙洛迪诺,谁对谁错? 
           
实际上,他们都是对的,因为他们试图解决的是两个不同的问题。再看看以上的问题,    
        
•A:我的朋友尼克有两个孩子,他告诉你他至少有一个女儿,那么另一个孩子是女孩的概率是多少?       
    
•B:你看到我的朋友尼克和他的女儿在街上散步。尼克告诉你他家里还有一个孩子,那么,另一个孩子是女孩的概率有多大?  
          
两个问题有什么不同吗,“看见一个孩子是女孩”和“一个孩子是女孩”一样吗?    
        
你认为呢?现在就是把聪明人弄糊涂的时候了。经济学教授加里混淆了以上两者的区别。
 
贝叶斯方程是解释这个问题最简单、最优雅的方法,尽管如此,笔者还是想从另一角度(使用全概率定律)来看待该问题。             
 
“至少有一个女儿”和“看到一个女孩”不是一回事。这是关键。   
         
这两个前提在时间和空间维度上的差异可以表示为“全局关系vs.局部关系”。
            
1.  空间维度上的“全球关系 VS 社会关系”

“至少有一个女儿”并不代表你能看到那个女孩
 

如何用简单的统计学问题“戏弄”聪明的数据科学家


如上图所示,“至少有一个女儿”包含了“看到一个女孩”,而“看到一个女孩”所传递的信息更具概率描述。
 
2.  时间维度上的“全球关系 VS 本地关系”
 
“至少有一个女儿”是鸟瞰的统计结果角度。   
         
“看见一个女孩”是人类观察的角度。    
        
下面是更直观的描述,       
 

如何用简单的统计学问题“戏弄”聪明的数据科学家

 
统计是对样本空间的总体描述。观察是对平行空间中一种可能组合(所有可能发生的事情)的实际描述。
            
在理解了这两个问题之间的根本区别之后,可以得出结论:   
         

•“至少有一个女儿”是样本空间中的一个概率问题。因此答案是1/3;   


•“看见一个女孩”是根据目前的观察作出的未知推断,这是一个贝叶斯统计计算。


 
因此,“看到一个女孩,问另一个孩子是女孩的概率”就等于“有两个孩子,你看到其中一个是女孩,那么这个家庭有两个女儿的概率是多少?”            
 
“猜性别”的话题到此结束。       
     
笔者想总结的是,即使是系统1(快速直观的本能,以及由‘或快或慢思考’产生的情感大脑)也没有很好的概率直觉。但是,我们总是可以通过增强对概率因果关系的认识,来提高自己解释周围环境中的动态和不确定性的能力。
 
如何用简单的统计学问题“戏弄”聪明的数据科学家

总结


如何通过概率建立主观假设与客观结果之间的联系?             
 
为什么对真实世界的观察会影响事件的偶然性概率?             
 
将要发生的事情和已经发生的事情有什么根本的区别?             
 
最后,如想找到一种回答这些问题的方法,或者想戏弄你的智能数据科学家朋友,可阅读以下书籍:
 
·     The Drunkard’s Walk: How Randomness Rules Our Lives
·     EssentialStatistics, Regression, and Econometrics
·     The Book of Why: The New Science of Cause and Effect
 

如何用简单的统计学问题“戏弄”聪明的数据科学家


如何用简单的统计学问题“戏弄”聪明的数据科学家

推荐阅读专题



如何用简单的统计学问题“戏弄”聪明的数据科学家

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货


编译组:何孟琛、杨月
相关链接:
https://towardsdatascience.com/how-to-gain-data-science-experience-before-your-first-data-science-job-88bed5f9fee3


如需转载,请后台留言,遵守转载规范


推荐文章阅读