数据科学与算法概述

数据科学

大数据：4V特性

数据广泛性

数据多样性（结构化、非结构化数据--网页、文本、图像、视频、语音）

用数据的方法研究科学

用科学的方法研究数据--数据的存取、数据分析（重点、困难）

数据的数学结构基本的数据结构包括

度量结构

网络结构

代数结构

数据处理的流程

数据获取（网络爬虫）、数据预处理、数据存储、数据分析挖掘、数据可视化

Python

数据获取、数据处理、建模、可视化

环境：Anaconda进行Python安装

数据预处理

（1）缺失值处理

原因：完全随机缺失、随机缺失、完全非随机缺失

方法：删除法、加权法、插补法

（2）数据转换

结构化处理

格式转换、类型转换及编码

数据的离散化处理

数据的标准化处理

（3）特征的评估选择与降维

选择特征子集、降低计算复杂度、提高模型精度、避免维度灾难

子集产生、子集评估、停止条件、子集验证

完全搜索、启发式搜索

算法分类

（1）有监督学习：回归、分类

训练集学习模型

测试集假设预测

回归模型

过拟合问题，泛化误差

分类模型

SVM，非线性划分；提高维度，变成线性可分

KNN，K值的选择、距离的问题

决策树

最大熵模型

逻辑回归

朴素贝叶斯

集成算法

Stacking

（2）无监督学习：聚类、降维、概率统计

聚类模型的本质：根据指定的聚类评判标准（ClusterCriterion）

与分了你模型不同的地方是：聚类模型要求所划分的类时未知的

K-Means

层次聚类

谱聚类

DBSCAN

（3）强化学习

自然语言处理、社交网络分析、数据可视化

人工智能

人工智能（Artificial Intelligence），英文缩写为AI。

它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。

人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

人工智能是一门极富挑战性的科学，从事这项工作的人必须懂得计算机知识，心理学和哲学。人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，计算机视觉等等，总的说来，人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。

人工智能是计算机学科的一个分支，二十世纪七十年代以来被称为世界三大尖端技术之一（空间技术、能源技术、人工智能）。

也被认为是二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一。

人工智能是一门边沿学科，属于自然科学、社会科学、技术科学三向交叉学科

结构模拟、功能模拟

强人工智能

强人工智能观点认为有可能制造出真正能推理（Reasoning）和解决问题（Problem_solving）的智能机器，并且，这样的机器能将被认为是有知觉的，有自我意识的。

强人工智能可以有两类：（1）类人的人工智能，即机器的思考和推理就像人的思维一样。（2）、非类人的人工智能，即机器产生了和人完全不一样的知觉和意识，使用和人完全不一样的推理方式。

弱人工智能

弱人工智能观点认为不可能制造出能真正地推理（Reasoning）和解决问题（Problem_solving）的智能机器，这些机器只不过看起来像是智能的，但是并不真正拥有智能，也不会有自主意识。

主流科研集中在弱人工智能上，并且一般认为这一研究领域已经取得可观的成就。强人工智能的研究则处于停滞不前的状态下。

弱人工智能不能模仿人类的大脑，也就是说没有意识。强人工智能能够模仿人类大脑，也就是说具有自我意识。

实现方法

人工智能在计算机上实现时有2种不同的方式。

一种是采用传统的编程技术，使系统呈现智能的效果，而不考虑所用方法是否与人或动物机体所用的方法相同。这种方法叫工程学方法（ENGINEERING APPROACH），它已在一些领域内作出了成果，如文字识别、电脑下棋等。

另一种是模拟法（MODELING APPROACH），它不仅要看效果，还要求实现方法也和人类或生物机体所用的方法相同或相类似。

遗传算法（GENERIC ALGORITHM，简称GA）和人工神经网络（ARTIFICIAL NEURAL NETWORK，简称ANN）均属后一类型。遗传算法模拟人类或生物的遗传-进化机制，人工神经网络则是模拟人类或动物大脑中神经细胞的活动方式。

主要成果

人机对弈

模式识别（采用$模式识别引擎，分支有2D识别引擎，3D识别引擎，驻波识别引擎以及多维识别引擎。2D识别引擎已推出指纹识别，人像识别，文字识别，图像识别，车牌识别；驻波识别引擎已推出语音识别；3D识别引擎已推出指纹识别玉带林中挂（玩游智能版1.25））

自动工程（自动驾驶（OSO系统）/印钞工厂（￥流水线）/猎鹰系统（YOD绘图））

知识工程（专家系统、智能搜索引擎、计算机视觉和图像处理、机器翻译和自然语言理解、数据挖掘和知识发现）

机器学习（ML）

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。（“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算机等）

它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

数据科学与算法概述

机器学习所采用的策略大体上可分为4种——机械学习、通过传授学习、类比学习和通过事例学习

推荐图书

《Machine Learning》作者：（美）Tom Mitchell，译者：曾华军张银奎

《Machine Learning for Hackers》作者：（美）Drew Conway/John Myles White，译者:陈开江/刘逸哲/孟晓楠/罗森林审校

参考

http://blog.jobbole.com/56256/机器学习的最佳入门学习资源

http://server.51cto.com/News-520805.htm机器学习领域中的六大误区

深度学习（DL）

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分。不同的学习框架下建立的学习模型很是不同。

卷积神经网络（Convolutional neural networks，简称CNNs）就是一种深度的监督学习下的机器学习模型

深度置信网（Deep Belief Nets，简称DBNs）就是一种无监督学习下的机器学习模型。

应用领域

计算机视觉、语音识别、自然语言处理（机器翻译）

神经网络

神经网络可以指向两种，一个是生物神经网络，一个是人工神经网络。

神经网络（Neural Networks,NN）是由大量的、简单的处理单元（称为神经元）广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

神经网络的基础在于神经元。神经元是以生物神经系统的神经细胞为基础的生物模型。在人们对生物神经系统进行研究，以探讨人工智能的机制时，把神经元数学化，从而产生了神经元数学模型。

生物神经网络：一般指生物的大脑神经元，细胞，触点等组成的网络，用于产生生物的意识，帮助生物进行思考和行动。

人工神经网络（Artificial Neural Networks，简写为ANNs）

也简称为神经网络（NNs）或称作连接模型（Connection Model），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

应用

http://www.csdn.net/article/2014-06-27/2820429机器学习算法汇总：人工神经网络、深度学习及其它

http://blog.csdn.net/baihuaxiu123/article/details/53046312[人工智能]人工智能知识体系(语法篇,中级篇,高级篇)

http://blog.csdn.net/baihuaxiu123/article/details/53042155[人工智能]机器学习大纲篇

人工智能、机器学习和深度学习三者之间的关系

（外文https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/）

在过去几年中，人工智能出现了爆炸式的发展，尤其是 2015 年之后。大部分原因，要归功于图形处理器（GPU）的广泛应用，使得并行处理更快、更便宜、更强大。另外，人工智能的发展还得益于几乎无限的存储空间和海量数据的出现（大数据运动）：图像、文本、交易数据、地图数据，应有尽有。

机器学习：实现人工智能的一种方法

简单来说，机器学习就是使用算法分析数据，从中学习并做出推断或预测

深度学习：实现机器学习的一种技术

Deep Learning是全部深度学习算法的总称，CNN是深度学习算法在图像处理领域的一个应用。

第一点，在学习Deep learning和CNN之前，总以为它们是很了不得的知识，总以为它们能解决很多问题，学习了之后，才知道它们不过与其他机器学习算法如svm等相似，仍然可以把它当做一个分类器，仍然可以像使用一个黑盒子那样使用它。

第二点，Deep Learning强大的地方就是可以利用网络中间某一层的输出当做是数据的另一种表达，从而可以将其认为是经过网络学习到的特征。基于该特征，可以进行进一步的相似度比较等。

第三点，Deep Learning算法能够有效的关键其实是大规模的数据，这一点原因在于每个DL都有众多的参数，少量数据无法将参数训练充分。

卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

它包括卷积层(alternating convolutional layer)和池层(pooling layer)

CNN的发展

http://www.36dsj.com/archives/24006（技术向：一文读懂卷积神经网络）

http://blog.csdn.net/u013088062/article/details/51118744（深度学习卷积神经网络大事件一览）

http://blog.csdn.net/u013088062/article/details/50893901（有关深度学习领域的几点想法）

http://blog.csdn.net/u013088062/article/details/50039573《PCANet: A Simple Deep Learning Baseline for Image Classification》中文翻译总结

http://blog.csdn.net/tangwei2014/article/details/47730797（caffe卷积层代码阅读笔记）

http://blog.csdn.net/column/details/deeplearningnote.html（深度学习论文笔记）

http://www.jiqizhixin.com/article/1253（2016 ICLR回顾：塑造人工智能未来的深度学习）

http://www.toutiao.com/i6291595355448410626/

http://blog.csdn.net/hanzihan123/article/details/41345871（NIPS2013）

http://blog.csdn.net/hanzihan123/article/details/41345775（ICML2014）

https://www.zhihu.com/question/52311422（ICLR 2017 有什么值得关注的亮点）

数据科学与算法概述

相关推荐