论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》

论文学习笔记1:

Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution

——机器学习的理论局限与因果革命的7大火花

原文链接 → http://arxiv.org/abs/1801.04016

图灵奖得主、贝叶斯网络之父Judea Pearl于2018年1月上传在arXiv、发表在2月的WSDM'18会议的论文Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution论述了当前机器学习理论局限,并给出来自因果推理的7大启发。Judea Pearl指出,当前的机器学习系统几乎完全以统计学或黑盒子的方式运行,这对它们的能力和性能造成严重的理论上的局限性。这些系统不能推理介入(intervention)和回溯(retrospection),因而不能作为强AI的基础。为了实现人类级别的智能,学习器应该需要真实的模型的指导,就如同在因果推理任务中的模型一样。为证明这些模型的重要作用,他概述了七个任务,这些任务是当前机器学习系统无法实现的,但是已经使用因果建模工具完成的。他认为实现强AI的突破口在于因果推断理论,该理论可以帮助解决现有机器学习方法无法解决的问题,也即突破现有机器学习的理论限制。因为现在的数据科学只有在加速了数据的解释,即连接了数据与现实,才可以称作一门科学;现在的机器学习,只是函数拟合学习,永远不可能实现强人工智能。


1. 科学背景

如果我们检查驱动机器学习的信息,我们发现它几乎完全是统计学的。换句话说,学习器通过优化从环境中获得的传感器输入流的参数来改善其性能 。这是一个缓慢的过程,在许多方面类似于推动达尔文进化的自然选择过程。它解释了像老鹰和蛇这样的物种如何在数百万年中开发出极好的视觉系统。然而,它无法解释人类如何能够在不到一千年的时间内制造眼镜和望远镜这样的超级进化过程。人类所拥有的其他物种缺乏的是精神表征(mental representation),这是一种人类可以随意操纵的环境蓝图,以想象(imagine)用于规划和学习的替代假设环境评:也就是说人类可以将现实世界在心里映射,然后可以在心里随意更改这种映射来想象和推理用于规划和学习的环境的变化。像N. Harari和S. Mithen这样的人类学家普遍认为,大约4万年前赋予我们智人祖先能够实现全球统治的决定性因素是他们能够映射环境的精神表征,审讯这一表征,通过想象力的心理行为扭曲它,最后来回答“What if?”这类问题。例子有介入性问题:“What if I act?”和回溯性或解释性问题:“What if I had acted diferently?”。如今没有学习器可以回答之前没有遇到的介入性问题,比如“What if we ban cigarettes? “。评:这些问题都隐含着因果推断,见后面有解释此外,如今的大多数学习器都没有提供可以从中得出这些问题的答案的表示。

Pearl假定实现加速学习速度和人类水平表现的主要阻碍,应该通过消除这些障碍并为学习器配备因果推理工具。 这个假设在二十年前本应是推测性的,是在反事实(Conterfactuals)的数学化之前的。但如今不是这样的。图形化和结构化的模型的进步使得反事实在计算上易于管理,从而使模型驱动(model-driven)的推理成为强AI的基础的更有希望的方向。在下一节中,我将使用三级层次结构描述机器学习系统面临的阻碍,这些三级层次结构被用来控制因果推理中的推断。最后一节总结了如何使用现代因果推理工具规避这些阻碍。

论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》

因果推理逻辑揭示的一个非常有用的见解是因果信息的敏锐分类是存在的,即每个类别能够回答的问题类型。该分类形成3级的层次结构,级别论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的问题只可以在来自级别论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的信息可用时才能回答。

图1显示了3级层次结构,以及可在每个级别回答的特征问题。这些问题包括:1、关联;2、介入;3、反事实。评:关联论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》介入论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》反事实这些层的名称即显示了它们的用法。

我们称第一级为“关联”,因为它代表纯粹的统计关系,由裸数据(naked data)定义。(这一层次的其他名字还有“无模型”、“盲模型”、“黑盒子”或“以数据为中心”,Darwiche(2017)使用“函数拟合”,由于它相当于使用一个由神经网络结构定义的复杂函数对数据的拟合)。例如,观察一个购买牙膏的顾客,那么他/她购买牙线的可能性更大;这种关联可以使用条件期望直接从观察到的数据推断得出。此层的问题位于层次结构的底层,因为它们不需要因果信息。

第二级“干预”排名高于“关联”层,因为它不仅涉及我们看到的是什么,而且设计我们所看到的改变。这个层次的一个典型问题是:如果我们将价格翻倍会怎样?这些问题无法单独从销售数据中得到解答,因为它们涉及客户响应新的定价的行为的变化。这些选择可能与之前的价格上涨情况大不相同(除非我们准确地复制当价格达到当前价值的两倍时存在的市场条件)。评:“介入”层如其名,说的是当改变了不一样的条件时会发生什么?强调的是对条件的介入

最高的层被称为“反事实”,这个术语可以追溯到哲学家David Hume和John Stewart Mill,过去二十年来一直被赋予计算机友好的语义。反事实类别中的一个典型问题是“如果我采取了相反行为会怎么样?”,因此需要进行回溯性推理。反事实被放置在层次结构的顶部,因为它们包含介入和关联层的问题。如果我们有一个可以回答反事实查询的模型,我们也可以回答有关干预和介入的问题。例如,介入性问题,如果我们将价格翻倍会发生什么?可以通过询问反事实问题来回答:如果价格是当前价值的两倍,会发生什么?评:其实对于博大精深的中文而言看起来似乎没太大区别,但是仔细咀嚼英文原文可以感受到不同同样,一旦我们回答了介入性问题,就可以回答关联性问题;我们只需完全忽略了动作部分并让观察接管。无法从纯观察信息(即仅来自统计数据)回答介入性问题。任何涉及回溯的反事实问题都不能从纯粹的介入信息中得到回答,例如从受控实验获得的信息;我们不能对接受药物治疗的受试者重新进行实验,看看他们没有服用药物时的行为方式。因此,层次结构是具有方向性的评:即可以从高层抵达低层,但高层问题不能从纯粹的低层问题获得答案,顶层是最强大的层次结构。

反事实是科学思维以及法律和道德推理的基石。例如,在民事法庭上,被告被认为是受伤的罪魁祸首,“但对于”(but for)被告的行为而言,更有可能不会发生伤害评:也就是从被告的角度看伤害也有可能并没有发生,需要从反事实的角度对比。"但对于"的计算的意义,要求将现实世界与被告行动未发生的替代世界进行比较。

层次结构中的每个层都有一个句法标签,用于表征哪些句子被允许进入该层。例如,“关联”层的特征在于条件概率句子,如论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》表明:我们在观察到事件论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》时事件论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的概率等于论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》。在大型系统中,可以使用贝叶斯网络或任何支持深度学习系统的神经网络有效地计算这种句子。

在“介入”层,我们找到论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》类型的句子,它表示“事件Y = y的概率,假设我们介入并将X的值设置为论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》并随后观察到事件论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》时事件论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的概率。这些表达可以通过随机试验进行实验估计,也可以使用Causal Bayesian Networks(Pearl,2000,第3章)进行分析。儿童通过顽皮地操纵环境(通常在确定性的游乐场)学习“介入”的效果,AI计划者通过行使他们指定的行动来获得“介入”知识。无论数据有多大,都不能仅从被动观察中推断出介入表达。评:不能像“关联”层一样直接从数据中观察得到表达,需要做随机实验

最后,在“反事实”层,我们有论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》类型的表达式,它代表“如果X观察是论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》则事件论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》,然而我们实际观察到X为论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》并且论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的概率“。例如,Joe上了四年大学毕业后的工资将会是论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》,然而考虑到他的实际工资是论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》由于他只上了两年大学的概率。这样的句子只有当我们拥有功能模型或结构方程模型,或这些模型的属性时才可以计算(Pearl,2000,第7章)。

这种层次结构及其所包含的正式限制,解释了为什么基于统计的机器学习系统无法推理行为、实验和解释。它还告诉我们什么样的统计信息以外的信息是需要的,以及支持这些推理模型的格式。

研究人员常常感到惊讶的是,这种层次结构将深度学习的令人印象深刻的成就,跟课本里的曲线拟合练习一起下降到”关联“层的水平。评:就是这种层次结构贬低了深度学习的成就反对这种比较的一种流行的立场认为,虽然曲线拟合的目的是最大限度地“拟合”,但在深度学习中试图最小化“过度拟合”。不幸的是,将层次结构中的三个层分开的理论局限告诉我们,我们的目标函数的性质其实无关紧要。只要我们的系统优化了观察数据的某些属性,无论它们是高尚的还是复杂的,同时没有引用数据之外的世界,我们又回到了层次结构的第1级,具有该级别所需的所有限制。评:无论你怎么搞,只是纯粹的观察数据,那么你就在level-1呆着吧

2. 因果革命的七大支柱(或者说什么事情是离开了因果模型不能做的?)

考虑以下五种问题:

  • 给定的治疗在预防疾病方面的效果如何?
  • 是否是新的减税措施导致销售额上升?
  • 肥胖导致的年度医疗费用是多少?
  • 雇用记录是否可以证明雇主犯有性别歧视罪?
  • 我即将退出我的gob,但是我应该吗?

这些问题的共同特点是它们关注因果关系。我们可以通过诸如“预防”,“原因”,“归因于”,“歧视”和“我应该”等词语来认识(识别)它们。这些词在日常用语中很常见,我们的社会不断要求回答这些问题。然而直到最近,科学甚至没有办法表达它们,更不用说回答它们了。评:就是说你们深度学习的模型都无法准确表示他们的意思了,更何谈回答这些问题与几何、机械、光学或概率的规则不同,因果规则被否定了数学分析的好处。评:不像那些学科直接利用数学分析可以带来很多好处,因果规律不能通过数学分析带来好处

为了理解这种否认的程度,读者会惊讶地发现,仅仅几十年前科学家们还是无法写出一个数学方程式来解释“泥不会引起降雨”的明显事实。即使在今天,只有顶级梯队科学界可以写出这样一个等式,并正式区分“泥雨导致雨”和“雨导致泥”。你可能会更惊讶地发现你最喜欢的大学教授不在其中。评:哈哈哈哈,老爷子很幽默

在过去的三十年里,事情发生了巨大的变化,一种用于管理因果关系的数学语言被开发了出来,伴随着一系列将因果分析转化为数学游戏的工具,像是求解代数方程或在高中找到几何问题的证明。这些工具允许我们以图和代数形式正式编纂我们现有的知识表达因果问题,然后利用我们的数据来估计答案。此外,当现有知识的状态或现有数据不足以回答我们的问题时,该理论警告我们;然后建议获得其他知识或数据来源,使问题可以回答。

哈佛大学教授Garry King给出了这种转变的具有历史意义的观点:“在过去的几十年里,人们已经学到了比以往所有历史记录中所学到的所有内容的总和还要多的关于因果推断的知识”(Morgan and Winship,2015)。我将这种转变称为“因果革命”(Pearl和Mackenzie,2018)以及导致它的数学框架,我将其称为“结构因果模型(Structural Causal Models, SCM)”。

SCM由三个部分组成:

  • 图模型
  • 结构方程组
  • 反事实和介入逻辑

图模型作为表达我们对世界的了解的语言,反事实帮助我们阐明我们想要知道的东西,而结构方程组则用于将两者结合在一起,形成一个坚实的语义。

论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》

图2以推理引擎的形式说明了SCM的操作。 引擎接受三个输入:查询,假设和数据,并产生三个输出:Estimand,Estimate和Fit指数。Estimand是一个数学公式,它基于假设Assumptions,提供了一个从任何可用的假设数据中回答查询的方法。 在收到数据Data后,引擎使用Estimand生成答案的实际Estimate,以及该答案中置信度的统计估计值(反映数据集的有限大小,以及可能的测量误差或缺少的数据)。 最后,引擎生成一个“拟合指数”列表,用于衡量数据Data与模型传达的假设Assumptions的兼容性。

论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》

为举例说明这些操作,我们假设查询Query表示X对Y的因果效应,写作论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》,其中X和Y是我们关注的两个变量。令模型的假设Assumptions编码为如上图所示的结构,其中Z是第三个变量并对X和Y都有影响。最后令数据从联合分布论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》中随机采样。由引擎计算的Estimand将是公式论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》。它定义了论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》将为我们的Query提供正确的答案的属性,如果估计(estimate)的话。答案本身可以通过任何数量的技术产生,这些技术从论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的有限样本产生论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的一致估计。例如,在满足指定的X和Z条件的所有情况下,Y的样本平均值将是一致的估计。但是可以设计出更有效的估算技术来克服数据稀疏性(Rosenbaum和Rubin,1983)。这是深度学习擅长的地方,也是大多数机器学习工作的重点,尽管没有基于模型(model-based)estimand的指导。最后,我们示例中的Fit Index将为NULL。换句话说,在检查图的结构之后,引擎应该得出结论,编码的假设Assumptions没有任何可测试的含义。因此,结果估计的准确性必须完全依赖于图中编码的假设 - 不能从数据中获得反驳或确证。(图中编码的假设assumptions由其缺失的箭头表示。 例如,Y不影响X或Z,X不影响Z,最重要的是,Z是影响X和Y的唯一变量。 这些假设缺乏可测试的含义可以从图形是完整的事实,即没有边缺失,得出结论。)

相同的过程适用于更复杂的查询,例如,之前讨论过的反事实查询论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》。我们也可以允许一些数据从受控的实验到达,如果W是受控变量,则采用论文学习笔记1——《机器学习的理论局限与因果革命的7大火花》的形式。 Estimand的作用仍然是将Query转换为可用数据的句法格式,然后引导选择估计技术(estimation technique)以确保无偏估计(unbiased estimates)。不用说,转换任务并不总是可行的,在这种情况下,Query将被声明为“不可识别”,并且引擎应该以FAILURE退出。幸运的是,已经开发出有效且完整的算法来确定可识别性并为各种反事实查询和各种数据类型产生估计(Bareinboim和Pearl,2016)。

接下来,我们提供了SCM框架七项成就的鸟瞰图,并讨论了每个支柱为自动推理艺术带来的独特贡献。

支柱1:编码因果假设 - 透明度和可测性(因果假设表示,graphical表示)

一旦我们认真考虑透明度和可测试性的要求,以紧凑和可用的形式编码假设的任务并非易事。(例如,经济学家选择了代数而不是图表示,这种方式被剥夺了基本的检测可测性特性(Pearl,2015b))透明度使分析人员能够辨别编码的假设是否合理(基于科学理由),或者是否有其他假设是有保证的。可测试性允许我们(无论是分析师还是机器)确定编码的假设是否与可用数据兼容,如果不兼容,则确定需要修复的假设。

图模型的进步使得紧凑编码变得可行。它们的透明度自然源于这样一个事实,即所有假设都以图方式编码,反映了研究人员对领域内因果关系的看法;不需要对反事实或统计依赖性的判断,因为这些可以从图的结构中读出。通过称为d-separation的图标准促进可测试性,该标准提供原因和概率之间的基本连接。它告诉我们,对于模型中任何给定的路径模式,我们应该期望在数据中找到什么样的依赖模式(Pearl,1988)。

支柱2:混杂因子控制(back-door、front-door、do-calculus)

长期以来,混淆或存在两个或多个变量的未观察到的原因一直被认为是从数据中得出因果推断的主要障碍。这个障碍已被揭秘并通过称为“后门”的图形标准“解除混淆”。 特别是选择的任务用于控制混杂的适当的协变量集已经简化为一个简单的“路障”难题,可通过简单的算法进行管理(Pearl,1993)。

对于“后门”标准不成立的模型,可以使用象征引擎,称为do-calculus,它可以在可行的情况下预测政策干预的效果,并且只要在指定的假设下无法确定预测,就会以失败退出(Pearl) ,1995; Tian和Pearl,2002; Shpitser和Pearl,2008)。

支柱3:反事实的算法化

反事实分析处理特定个体的行为,由一系列不同的特征来识别,例如,鉴于Joe的薪水是Y = y,并且他上了X = x年大学,那么Joe的薪水是多少当他多受一年教育。

因果革命的最高成就之一就是在图表示中形式化反事实推理,这是研究人员常用来编码科学知识的方法。每个结构方程模型都确定了每个反事实句子的真值。因此,我们可以通过分析确定句子的概率,如果句子的概率可以通过实验或观察研究或其组合来估计[Balke and Pearl,1994;Pearl,2000年,第7章]。

对因果话语特别感兴趣的是关于“影响的原因”的反事实问题,而不是“原因的影响”。例如,Joe的游泳运动是Joe死亡的必要(或充分)原因的可能性有多大(珍珠, 2015a; Halpern和Pearl,2005)。

支柱4:调解分析和直接和间接影响的评估

调解分析涉及将变化从原因传递到其影响的机制。 识别这种中间机制对于产生解释是必不可少的,并且必须引用反事实分析以促进这种识别。反事实的图表示使我们能够定义直接和间接的影响,并决定何时可以从数据或实验中估计这些影响(Robins和Greenland,1992; Pearl,2001; VanderWeele,2015)。 通过该分析可回答的典型查询是:X对Y的影响的哪一部分由变量Z调解的。

支柱5:外部有效性和样品选择偏差

每个实验研究的有效性受到实验和实施设置之间的差异的挑战。除非对变化进行定位和识别,否则在环境条件变化时,不能期望在一个环境中训练的机器表现良好。这个问题及其各种表现形式得到机器学习研究者的充分认可,“领域适应”,“转移学习”,“终身学习”和“可解释的人工智能”等只是研究人员和资助机构试图减轻一般性的鲁棒性问题确定的一些子任务。不幸的是,鲁棒性问题需要环境的因果模型,并且不能在关联层面处理,其中尝试了大多数补救措施。关联不足以确定受发生变化影响的机制。上面讨论的do-calculus现在提供了一种克服由于环境变化引起的偏差的完整方法。它既可用于重新调整学习策略以规避环境变化,也可用于控制由非代表性样本引起的偏差(Bareinboim和Pearl,2016)。

支柱6:缺失数据

缺失数据的问题困扰着实验科学的每个分支。 受访者不会回答调查问卷中的每个项目,传感器随着环境条件的变化而逐渐fade,患者经常因为不明原因而从临床研究中退出。 关于这个问题的丰富文献结合了统计分析的盲模型范式,因此,它严重局限于随机发生缺失的情况,即与模型中其他变量所采用的值无关。 使用缺失过程的因果模型,我们现在可以形成条件,在这些条件下,可以从不完整的数据中恢复因果关系和概率关系,并且只要条件得到满足,就可以对期望的关系产生一致的估计(Mohan和Pearl,2017)。

支柱7:因果发现

上述d-separation标准使我们能够检测和列举给定因果模型的可测试含义。 这开启了通过温和假设推断与数据兼容的模型集并且紧凑地表示该集合的可能性。 已经开发了系统搜索,在某些情况下,可以将这组兼容模型显着地修剪到可以直接从该组中估计因果查询的点(Spirtes等,2000; Pearl,2000; Peters等,2017;)

3. 总结

哲学家Stephen Toulmin(1961)认为基于模型和盲模型的二分法是理解巴比伦和希腊科学之间古代竞争的关键。根据Toulmin的说法,巴比伦的天文学家是黑箱预测的主人,在准确性和一致性方面远远超过他们的希腊对手(Toulmin,1961,pp.27-30)。然而,科学赞成希腊天文学家的创造性思辨策略,这种策略具有形而上学意象的狂野:充满火焰的圆形管,天体火焰可以看作星星的小洞,以及在海龟背上骑行的半球形地球。然而正是这种狂野的造型策略,而不是巴比伦的刚性,震动了Eratosthenes(公元前276-194),进行了古代世界最具创造性的实验之一,并测量了地球的半径。巴比伦曲线钳工永远不会发生这种情况。

回到强大的人工智能,我们已经看到盲模型方法对他们可以执行的认知任务有内在的理论局限。我们已经描述了其中的一些任务,并演示了如何在SCM框架中完成这些任务,以及为什么基于模型的方法对于执行这些任务至关重要。我们的一般结论是,人类AI不能仅仅来自盲模型学习机器;它需要数据和模型的共协作。

数据科学只有当它促进了数据的解释——一个将数据与现实联系起来的双体问题,才能称为是一个学科。数据本身并不是一门科学,无论它们多大以及如何巧妙地操纵它们。

评:老爷子的这篇文章主要围绕着他这二十年的研究展开,所以有必要了解他的相关文章内容促进对本文内容的理解

另外老爷子还在NIPS 2017 研讨会发表了与该话题相关的讲话,以下是Q&A的翻译及ppt和论文链接:

我在一个关于机器学习与因果性的研讨会(长滩 NIPS 2017 会议之后)上发表了讲话。随后我就现场若干个问题作了回应。我希望从中你可以发现与博客主题相关的问题和回答。一些人也想拷贝我的 PPT,下面的链接即是,并附上论文:

http://ftp.cs.ucla.edu/pub/stat_ser/r475.pdf
NIPS 17 – What If? Workshop Slides (PDF)
NIPS 17 – What If? Workshop Slides (PPT [zipped])

问题 1:”因果革命“是什么意思?

回答:”革命“是诗意用法,以总结 Gary King 的有重大历史意义的发现:”在过去的几十年里,人们已经学到了比以往所有历史记录中所学到的所有内容的总和还要多的关于因果推断的知识“。三十年之前,我们还无法为”泥无法导致下雨“编写一个公式;现在,我们可以公式化和评估每一个因果或反事实陈述。

问题 2:由图模型产生的评估与由潜在结果的方法产生的评估相同吗?

回答:是的,假设两种方法开始于相同的假设。图方法(graphical approach)中的假设在图中被展示,而潜在结果方法(potential outcome approach)中的假设则通过使用反事实词汇被审查者单独表达。

问题 3:把潜在的结果归因于表格个体单元的方法似乎完全不同于图方法中所使用的方法。它们的区别是什么?

回答:只在有可条件忽略的特定假设成立的情况下,归因才有效。表格本身并未向我们展示假设是什么,其意义是什么?为了搞明白其意义,我们需要一个图,因为没有人可在头脑中处理这些假设。流程上的明显差异反映了对假设可见的坚持(在图框架中),而不是使其隐藏。

问题 4:有人说经济学家并不使用图,因为其问题不同,并且也没能力建模整个经济。你同意这种解释吗?

回答:不同意!从数学上讲,经济问题与流行病学家(或其他科学家)面临的问题并无不同,对于后者来讲,图模型已经成为了第二语言。此外,流行病学家从未抱怨图迫使其建模整个人体解剖结构。(一些)经济学家中的图规避(graph-avoidance)是一种文化现象,让人联想到 17 世纪意大利教会天文学家避开望远镜。底线:流行病学家可以判断他们的假设的合理性——规避掉图的经济学家做不到(我提供给他们很多公开证明的机会,并且我不责怪他们保持沉默;没有外援,这个问题无法被处理)。

问题 5:深度学习不仅仅是你所强烈描述的曲线拟合?毕竟,曲线拟合的目标是最大化拟合,同时深度学习中很多努力也在最小化过拟合。

回答:在你的学习策略中不管你使用何种技巧来最小化过拟合或其他问题,你依然在优化已观察数据的一些属性,同时不涉及数据之外的世界。这使你立即回到因果关系阶梯的第一阶段,其中包含了第一阶段要求的所有理论局限。

Q&A原文链接:NIPS 2017: Q&A Follow-up——Causal Analysis in Theory and Practice