01-数据科学的基础:什么是数据科学,机器学习,人工智能,神经网络,大数据

要学习数据分析,我们首先需要知道数据科学都应用于哪些领域:

1. 人工智能(Artifical Intelligence):
人工智能是数据科学最长应用的领域。最常见的应用为:照片识别,翻译,和游戏。
例如:Iphone手机内的相册提供的照片识别,和照片分类功能,通过对人脸或者地理位置的分类,对照片进行的分のの3类。

人工智能(AI)VS. 数据科学(Data Science)的区别:
人工智能是通过数据来研究算法,宽泛的来讲属于机器学习
数据科学是运用方法和算法的技术来处理数据。
01-数据科学的基础:什么是数据科学,机器学习,人工智能,神经网络,大数据
上图为数据科学,机器学习,人工智能和神经网络之间的关系。

2. 机器学习(Machine Learning)
机器学习是运用算法来研究数据。
例如: 垃圾邮件的自动处理。图像的识别。语言翻译。

3. 神经网路(Neural Networks)
神经网络属于机器学习和认知科学领域,是一种模仿生物神经网络(动物的中樞神經系統,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。

4.大数据(Big Data):
大数据的三大特征(3V): 数据量(volume),速度(velocity),多样性(variety)

大数据领域不运用数据科学技术:
可应用于处理大的,有数的数据集合,只能应用于处理少量的数据变量。
数据科学领域不运用大数据技术:
可应用于处理无需文字,可创建并合并多个数据集合,数据成像。

5. 预测分析 (Predictive Analytics) :
应用于:1. 预测顾客的产品购买。2. 疾病的风险预测。

01-数据科学的基础:什么是数据科学,机器学习,人工智能,神经网络,大数据
上图为数据科学和预测分析的关系。

预测分析技术不运用数据科学技术:

  1. 清理,量化数据集合。 2. 可应用普通的模型例如回归模型或决策树。
    数据科学领域不运用预测分析技术:
  2. 聚类分析 2. 统计 3.分布图绘制 4.数据成像

6. 指导性分析(Prescriptive Analytics):
指导性分析的主要分析于以下三种:
1.相关性观测: 当某个因素出现时,则会极大可能产生某种结果。
2.时间优先性:先因后果。在两个变量发生关系的时候,通过分析来确定原因发生在结果之前的这一原则。
3. 不相关的分析。这里需要强调的是,有些时候在数据中我们会遇到看似两个变量具有相关性,但是确实属于偶然性的发生,所以不相关的分析就是分析变量是否真正具备某种确定的关系,而非偶然事件。

一般情况来说,预测分析就是在分析变量的相关性。
Predictive Analytics = Correlation

而指导性分析是分析变量的因果关系。
Prescriptive Analytics = Causation

指导性分析技术不运用数据科学技术:
可应用于处理实验调查中的规范数据集合的分析,同时也可用于A/B 测试
数据科学技术不运用指导性分析技术:
可用于预测分析,包含分类分析,聚类分析,趋势分析,异常值分析。

7. 商业智能(Business Intelligence):
商业智能的方式的应用主要要求:
数据处理的速度,易于访问。
商业智能主要依赖于规范的易懂,易于访问的商业智能数据仪表盘。

商业智能的主要目标:

  1. 收集和清洗数据
  2. 通过模型快速准确的得到结果
  3. 发现数据中的趋势和异常值。