未明学院:统计学 VS 机器学习,哪种方法更适合数据挖掘?
在大数据时代,统计学和机器学习等诸多方法被用来分析大量的数据中隐藏的信息,实现数据挖掘。
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,它是人工智能的核心,其应用遍及人工智能的各个领域,主要使用归纳、综合而不是演绎。
统计学认为数据是来源于某种既定的随机数据模型,而机器学习则认为使用算法足以探索未知机制的数据。那么哪种方法更适合数据挖掘呢?
数据挖掘始于数据,但是数据中自变量生成响应变量的机制通常是未知的,仿佛产生于“黑箱”之中。
自变量x进入“黑盒”,通过未知的函数产生响应变量y,正如下图所示:
数据挖掘的目标通常有两种:
一是预测:响应变量y对于未来的输入变量x的响应,即预测一组变量对另一组变量的影响;
二是信息,提取输入变量x和响应变量y间的关联,即因果关系。
统计学
统计学认为数据是来源于某种既定的随机数据模型,例如:
响应变量=(自变量,随机误差,参数)
参数可以由数据和模型进行估计,但是由于统计学模型通常要满足一定的前提条件,还需通过拟合优度检验和残差分析等方法对数据和模型是否契合进行判断。
在处理具体问题时,统计学是有一定优势的。当处理预测问题时,通过将数据拟合各种模型,它可以给出参数的区间估计,告诉我们模型在某个范围内的概率比较大。
这种方式在一定程度上弥补了模型与数据是否契合的不确定,也更多地考虑了以有限样本估计总体时的不确定性。
统计学的另一优势在于可以尝试勾勒自变量转化为响应变量的机制,生成简单易懂的图形,并尝试论证蕴藏其后的因果关系。
面对越来越复杂的数据结构,统计学的局限性也日渐凸显。
对于自变量较多的数据,多元正态分布的前提条件是很难满足的,拟合优度检验也很难发现自变量与响应变量间存在非线性关联。
除非数据和线性模型(线性回归模型等)极度不契合,拟合优度检验都可以容忍。而残差分析对于高维数据同样难以发挥作用。
这意味着使用的线性模型是否合适是难以通过统计学方法确定的。贝叶斯方法和马尔可夫链结合蒙特卡罗方法的研究越来越多,也体现了传统统计学方法面对愈发复杂的数据结构时的无力。
机器学习
机器学习则与此不同,它绕过了“黑箱”中的机制,使用算法为手段另辟蹊径,通过预测的准确程度进行模型检验。
也就是说,精准预测是机器学习方法的主要目标,在实现这个目标时机器学习放弃了对“黑箱”中因果关系的探讨。
树模型和神经网络是最具有机器学习风格的两类模型,它们从未知的多元分布中直接提取信息,并通过多样的算法分析如何用信息更精准的预测,甚至多数情况下达到了传统统计学方法难以企及的精准程度。
但至于直接用于预测的变量和界值是否具有现实意义则不在考虑范围内。
树模型有助于探索数据集,并可视化预测的决策规则,它高度精确、稳定且更易于解释,可以映射非线性关系以求解问题。
人工神经网络(ANN)包含了许多可以学习类似人脑的认知能力的模型。其它算法不能处理的极其复杂的任务(如图像识别),神经网络就可以办到。
《罗生门》是一部精彩的日本电影,电影中四个人从不同的视角目睹了一个人被强奸,而另一个人死亡的事件,但他们出庭作证时,对于同一个事实却讲述了不同的故事。
机器学习中同样如此,恰当的特征抽取将带来表现稳定而优异的精准程度,这无疑是令人兴奋的。随之而来的副作用是变量选择方面极高程度的不稳定性。
去除样本中2%-3%的数据,就会构造出完全不同的树模型或者神经网络,但模型预测的精准程度不会有很大变化。
随机森林等集成学习的方法使得机器学习在一定程度上忽视以往十分致命的“维度灾难”,让直接分析高维数据成为可能,这种结论无疑会比丢失信息的低维数据更加贴近事实。
与传统统计学不同的是,机器学习结论的验证只能通过评价模型在新数据中的表现这种形式来实现,交叉验证也成为机器学习使用者不得不掌握的方法之一。甚至有学者说,机器学习假设检验的结果就在用于测试的数据集里。
机器学习是由统计学和计算机科学发展而来,一度被称为“统计学习”,两者关系贴近而又有所不同,但是过度区分两者是没有意义的。
数据分析的目标是做出预测和发掘信息,而机器学习和统计学在这两方面各有所长,但是两者都是建立在数据的基础上的。
只有能准确代表真实世界的数据才能将我们引向正确的结论。因此在分析和解决问题时,更重要的是把握整体。