第1章 大数据概述
第1章 大数据概述
1.1大数据的概念(4V说法)
1.数据量大(Volume)
2.数据类型繁多(Variety)
3.处理速度快(Velocity)
4.价值密度低(Value)
1.2大数据的思维方式
全样而非抽样,效率而非精确,相关而非因果。
1.3大数据关键技术
技术层面 | 功能 |
---|---|
数据采集 | 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理和分析 |
数据存储和管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 |
数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解和分析数据 |
数据隐私和安全 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 |
1.4大数据计算模式
大数据计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 针对大规模数据的批量处理 | MapReduce、Spark等 |
流计算 | 针对流数据的实时计算 | Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等 |
图计算 | 针对大数据图结构数据的处理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |
1.5大数据与云计算、物联网
1.5.1云计算的三种典型的服务模式
1.5.2云计算的关键技术
1.虚拟化
2.分布式存储
3.分布式计算
4.多租户
1.5.2物联网的技术架构
1.5.3物联网关键技术
1.识别和感知技术(二维码、RFID、传感器等)
2.网络与通信技术
3.数据挖掘与融合技术