大数据时代究竟改变了什么?
大数据究竟改变了什么?
-
改变的是思维方式
-
增加了数据重要性:数据资源—>数据资产(增值)
-
改变了方法论:基于知识的理论完美主义—>基于数据的历史经验主义
-
改变了数据分析: 统计学(抽样)—>数据科学(大数据);数据科学家(大数据+算法+丰富的业务知识)
-
改变计算智能:复杂算法—>简单算法(MapReduce)
-
改变决策方面:基于目标决策—>基于数据决策
-
改变业务方面:基于业务的数据化—>数据主导业务
-
产生竞争:以战略为中心——以数据为中心
大数据4V特征
- 数据量大
TB-PB-ZB
HDFS分布式文件系统 - 数据种类多
结构化数据
Mysql为主的存储和处理
非结构化数据
图像、音频
HDFS、MR、Hive
半结构化数据
XML形式、HTML形式
HDFS、MR、HIve、Spark - 速度快
数据的增长速度快
数据的处理速度快 - 价值密度低
大数据项目架构—以电信日志分析为例
-
以电信日志分析为例
-
项目名称:电信日志分析系统
-
项目描述:(做什么?数据来源?实现功能?数据量大小?)电信日志分析系统是以电信用户上网产生的数据进行分析和统计,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词检测、违规违法用户的处理等,整个项目的数据量在1T-20T左右,集群数量在10台-100台。
-
项目架构分析:
数据采集层:ftp/socket
数据存储层:HDFS
数据分析层:MR\HIVE\IMPALA\SPARK
机器学习层:在大数据处理后的应用
数据展示层:oracle+SSM -
项目职责:
重点负责:实时or离线
处理分析了那些字段,通过何种手段进行分析
项目有没有优化 -
项目优化:
HDFS+SPARK一站式分析平台
医疗案例
机器学习-人工智能
人工智能的三次浪潮:跳棋:专家系统,象棋:统计模型,围棋:深度学习
人工智能的场景应用:图形识别-分类;无人驾驶;智能翻译;语音识别;医疗智能诊断;数据挖掘
人工智能、机器学习、深度学习概念区别
人工智能(暴力)>机器学习(加入算法)>深度学习(一种方法)
机器学习只是人工智能的一个分支,机器学习分支还有数据挖掘和模式识别
深度学习是机器学习的一种方法,是为了解决机器学习做不好的领域如图片识别
人工智能如何落地?–依靠机器学习
数据分析、数据挖掘、机器学习
数据:即观测值,测量值
信息:可信的数据
数据分析:数据–>信息
数据挖掘:信息–>到有价值的信息
模式识别:图像识别
机器学习
机器学习:从已有的经验中学习经验,从经验去分析。如判断收到邮件是否是垃圾邮件,自动标记facebook中的照片,考虑购物习惯推荐商品,预测汇率涨不涨,根据病症判断是哪类疾病
确定问题不是机器学习:计算每种箱子的个数
数值计算问题不是机器学习:计算一组数的平均值大小
判断方法:可以通过是否具有预测过程判断是否是机器学习
基于规则和基于模型
基于规则学习:专家发现规律制定规则,是采用硬编码方式进行学习
基于模型学习:通过数据构建机器学习模型,通过模型进行预测
X(自变量,定义域—>特征)----f(函数、映射---->模型)—>Y(因变量、值域—>结果)
最终目的是求解y=kx+b中的k和b
机器学习学习的是什么?学习的是模型。学习的是模型中的k和b,即模型参数