第1章 大数据概述

第1章 大数据概述

1.1大数据的概念(4V说法)

1.数据量大(Volume)

2.数据类型繁多(Variety)

3.处理速度快(Velocity)

4.价值密度低(Value)


1.2大数据的思维方式

全样而非抽样,效率而非精确,相关而非因果。

1.3大数据关键技术

技术层面 功能
数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理和分析
数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解和分析数据
数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

1.4大数据计算模式

大数据计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理 MapReduce、Spark等
流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算 针对大数据图结构数据的处理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算 大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、Impala等

1.5大数据与云计算、物联网

1.5.1云计算的三种典型的服务模式

第1章 大数据概述


1.5.2云计算的关键技术

1.虚拟化

2.分布式存储

3.分布式计算

4.多租户


1.5.2物联网的技术架构

第1章 大数据概述


1.5.3物联网关键技术

1.识别和感知技术(二维码、RFID、传感器等)

2.网络与通信技术

3.数据挖掘与融合技术


1.6大数据与云计算、物联网的关系

第1章 大数据概述