机器学习导论(一)

大数据时代改变了什么

改变了思维方式
数据重要性

数据资源——数据资产(增值)

方法论
数据分析

统计学(抽样)——数据科学(大数据)

计算智能

复杂算法

决策方面

基于目标决策 ——> 基于数据决策

业务方面

基于业务的数据化 ——> 基于数据的业务化

产业竞合

以战略为中心 ——> 以数据为中心

大数据的4V特征

数据量大

TB–PB–ZB
HDFS分布式文件系统

数据种类多

结构化数据:Mysql为主的存储和处理
非结构化数据:图像、音频等,HDFS、MR、Hive
半结构化数据:XML形式、HTML形式,HDFS、MR、Hive、Spark

速度快

数据增长速度快,使用HDFS存储
数据的处理速度快,MR-HIVE-PIG-IMPALA(离线),Spark-Flink(实时)

价值密度低

机器学习与大数据关系

通过数据采集和数据存储,机器学习是在大数据之上对数据的进一步分析。

机器学习-人工智能的发展

人工智能的三次浪潮

1、跳棋----专家系统
2、象棋----统计模型
3、围棋----深度学习

人工智能应用场景

图像识别
无人驾驶
智能翻译
语音识别
医疗智能诊断
数据挖掘

机器学习-人工智能的关系

机器学习时人工智能的一个分支,深度学习是机器学习的一种方法。
数据挖掘模式识别也属于人工智能

数据、数据分析、数据挖掘和机器学习的关系

数据:即观测值,如测量数据
信息:可信数据
数据分析:从数据到信息的整理、筛选和加工过程
数据挖掘:对信息进行价值化的分析
用机器学习的方法进行数据挖掘,机器学习是一种方法,数据挖掘是一件事情
机器学习导论(一)

机器学习概念

机器学习,致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善(计算机)系统自身的性能。在给定算法结合数据构建模型,通过模型达到预测的功能。
特定问题:不需要使用机器学习。

基于规则的学习和基于模型的学习

基于规则的学习是硬编码的方式进行学习
基于模型的学习是通过数据构建机器学习模型,通过模型进行预测
X(自变量、定义域–特征)-----------------f(函数、映射–模型)------------------Y(因变量、值域–结果)
最终目的是求解y=kx+b中的k和b
机器学习学习的就是模型中的k和b-----参数