大数据时代究竟改变了什么?

大数据究竟改变了什么?

  • 改变的是思维方式

  • 增加了数据重要性:数据资源—>数据资产(增值)

  • 改变了方法论:基于知识的理论完美主义—>基于数据的历史经验主义

  • 改变了数据分析: 统计学(抽样)—>数据科学(大数据);数据科学家(大数据+算法+丰富的业务知识)

  • 改变计算智能:复杂算法—>简单算法(MapReduce)

  • 改变决策方面:基于目标决策—>基于数据决策

  • 改变业务方面:基于业务的数据化—>数据主导业务

  • 产生竞争:以战略为中心——以数据为中心

大数据4V特征

  • 数据量大
    TB-PB-ZB
    HDFS分布式文件系统
  • 数据种类多
    结构化数据
    Mysql为主的存储和处理
    非结构化数据
    图像、音频
    HDFS、MR、Hive
    半结构化数据
    XML形式、HTML形式
    HDFS、MR、HIve、Spark
  • 速度快
    数据的增长速度快
    数据的处理速度快
  • 价值密度低

大数据项目架构—以电信日志分析为例

  • 以电信日志分析为例

  • 项目名称:电信日志分析系统

  • 项目描述:(做什么?数据来源?实现功能?数据量大小?)电信日志分析系统是以电信用户上网产生的数据进行分析和统计,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词检测、违规违法用户的处理等,整个项目的数据量在1T-20T左右,集群数量在10台-100台。

  • 项目架构分析:
    数据采集层:ftp/socket
    数据存储层:HDFS
    数据分析层:MR\HIVE\IMPALA\SPARK
    机器学习层:在大数据处理后的应用
    数据展示层:oracle+SSM

  • 项目职责:
    重点负责:实时or离线
    处理分析了那些字段,通过何种手段进行分析
    项目有没有优化

  • 项目优化:
    HDFS+SPARK一站式分析平台
    大数据时代究竟改变了什么?

医疗案例

大数据时代究竟改变了什么?
大数据时代究竟改变了什么?
大数据时代究竟改变了什么?

机器学习-人工智能

人工智能的三次浪潮:跳棋:专家系统,象棋:统计模型,围棋:深度学习

人工智能的场景应用:图形识别-分类;无人驾驶;智能翻译;语音识别;医疗智能诊断;数据挖掘

人工智能、机器学习、深度学习概念区别

人工智能(暴力)>机器学习(加入算法)>深度学习(一种方法)

机器学习只是人工智能的一个分支,机器学习分支还有数据挖掘和模式识别

深度学习是机器学习的一种方法,是为了解决机器学习做不好的领域如图片识别

人工智能如何落地?–依靠机器学习

数据分析、数据挖掘、机器学习
数据:即观测值,测量值

信息:可信的数据

数据分析:数据–>信息

数据挖掘:信息–>到有价值的信息

模式识别:图像识别

机器学习

机器学习:从已有的经验中学习经验,从经验去分析。如判断收到邮件是否是垃圾邮件,自动标记facebook中的照片,考虑购物习惯推荐商品,预测汇率涨不涨,根据病症判断是哪类疾病

确定问题不是机器学习:计算每种箱子的个数

数值计算问题不是机器学习:计算一组数的平均值大小

判断方法:可以通过是否具有预测过程判断是否是机器学习

基于规则和基于模型
基于规则学习:专家发现规律制定规则,是采用硬编码方式进行学习

基于模型学习:通过数据构建机器学习模型,通过模型进行预测

X(自变量,定义域—>特征)----f(函数、映射---->模型)—>Y(因变量、值域—>结果)

最终目的是求解y=kx+b中的k和b
机器学习学习的是什么?学习的是模型。学习的是模型中的k和b,即模型参数