人工智能、数据挖掘、模式识别、机器学习、深度学习的概念认知

引言

我个人出于跟踪现在最热门的技术,对人工智能领悟几个很重要的概念(人工智能、数据挖掘、模式识别、机器学习、深度学习)做了简单的认识,了解他们之间的包含关系和区别。不一定全面,只作为借鉴。

人工智能

我们先上图:
人工智能、数据挖掘、模式识别、机器学习、深度学习的概念认知
很显然,看到上面的图,我们可以看到人工智能在应用领域与机器学习有许多重复的地方,所以很多时候我们说的人工智能与机器学习其实是一回事。


然而人工智能的定义为:人工智能是使智能机器和计算机程序能够以通常需要人类智能的方式学习和解决问题的科学和工程。通常,这些包括自然语言处理和翻译视觉感知和模式识别以及决策,但应用程序的数量和复杂性正在迅速扩大。


模式识别

70年代至80年代提出,强调的是如何让一个计算机程序去做一些看起来很“智能”的事情,例如区分“3”和“B”或者“3”和“8”,很多时候需要专门手工设计一些分类规则,如滤波,边缘检测和形态学处理等技术。(智能程序的诞生)

数据挖掘

数据挖掘:也就是data mining,是一个很宽泛的概念。顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。你用excel分析分析数据,发现了一些有用的信息,然后这些信息可以指导你的business。所以,数据挖掘更偏向应用。为了做好数据挖掘,企业又要建立数据仓库。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

机器学习

机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。

机器学习的思想并不复杂,它仅仅是对人类生活中学习过程的一个模拟。而在这整个过程中,最关键的是数据。任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,比如线性回归(Linear Regression)、K均值(K-means,基于原型的目标函数聚类方法)、决策树(Decision Trees,运用概率分析的一种图解法)、随机森林(Random Forest,运用概率分析的一种图解法)、PCA(Principal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量机)以及ANN(Artificial Neural Networks,人工神经网络)。

深度学习

深度学习:deep learning,机器学习里面现在比较火的一个topic(机器学习的一个子集),本身是神经网络算法的衍生(例如深度卷积多层神经网络),在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。

深度学习(Deep Learning)的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。


总结

数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,也有来自数据库技术这门学科。深度学习是机器学习一类比较火的算法,本质上还是原来的神经网络,而人工智能多指现在的机器学习,当然人工智能也远不止机器学习这一类技术。