机器学习导论(一)
大数据时代改变了什么
改变了思维方式
数据重要性
数据资源——数据资产(增值)
方法论
数据分析
统计学(抽样)——数据科学(大数据)
计算智能
复杂算法
决策方面
基于目标决策 ——> 基于数据决策
业务方面
基于业务的数据化 ——> 基于数据的业务化
产业竞合
以战略为中心 ——> 以数据为中心
大数据的4V特征
数据量大
TB–PB–ZB
HDFS分布式文件系统
数据种类多
结构化数据:Mysql为主的存储和处理
非结构化数据:图像、音频等,HDFS、MR、Hive
半结构化数据:XML形式、HTML形式,HDFS、MR、Hive、Spark
速度快
数据增长速度快,使用HDFS存储
数据的处理速度快,MR-HIVE-PIG-IMPALA(离线),Spark-Flink(实时)
价值密度低
机器学习与大数据关系
通过数据采集和数据存储,机器学习是在大数据之上对数据的进一步分析。
机器学习-人工智能的发展
人工智能的三次浪潮
1、跳棋----专家系统
2、象棋----统计模型
3、围棋----深度学习
人工智能应用场景
图像识别
无人驾驶
智能翻译
语音识别
医疗智能诊断
数据挖掘
机器学习-人工智能的关系
机器学习时人工智能的一个分支,深度学习是机器学习的一种方法。
数据挖掘、模式识别也属于人工智能
数据、数据分析、数据挖掘和机器学习的关系
数据:即观测值,如测量数据
信息:可信数据
数据分析:从数据到信息的整理、筛选和加工过程
数据挖掘:对信息进行价值化的分析
用机器学习的方法进行数据挖掘,机器学习是一种方法,数据挖掘是一件事情。
机器学习概念
机器学习,致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善(计算机)系统自身的性能。在给定算法结合数据构建模型,通过模型达到预测的功能。
特定问题:不需要使用机器学习。
基于规则的学习和基于模型的学习
基于规则的学习是硬编码的方式进行学习
基于模型的学习是通过数据构建机器学习模型,通过模型进行预测
X(自变量、定义域–特征)-----------------f(函数、映射–模型)------------------Y(因变量、值域–结果)
最终目的是求解y=kx+b中的k和b
机器学习学习的就是模型中的k和b-----参数