大数据技术与应用1-基础概念
1.大数据时代
随着科技发展,IT领域迎来三次信息化浪潮,标志分别为个人计算机、互联网、物联网以及云计算和大数据。信息科技为大数据时代提供技术支撑,包括有存储技术的发展、CPU处理能力的大幅提升、网络带宽的不断增加;数据产生方式的变革促成大数据时代的来临,由运营式系统阶段->用户原创内容阶段->感知式系统阶段;
2.大数据概念
“大数据”不仅仅是数据的大量化,而是包含快速化、多样化和价值化等多重属性,即4V(VOLUME、VELOCITY、VARIETY、VALUE)。由结构化和非结构化的数据量倍速增长,从数据生成到消耗,时间窗口非常小可用于决策的时间非常少,由此产生1秒定律。
3.大数据的影响
思维方面,完全颠覆传统的思维方式:全样而非抽样(存储和计算技术的成熟)、效率而非精确(样例更丰富)、相关而非因果(仅需关注数据的关联性不必追究其因果)
4.大数据关键技术
数据采集
利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。
数据存储和管理
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。
数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据。
数据隐私和安全
构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。
两大核心技术是:分布式存储(HDFS/GFS、NoSQL)和分布式处理(MapReduce)
5.大数据计算模式
批处理运算
针对大规模数据的批处理,有MapReduce、Spark等
流计算
针对数据流的实时计算,有Flume、Super Mario
图计算
针对大规模图结构数据的处理,有Pregel
查询分析计算
大规模数据的存储管理和查询分析,有Hive
6.大数据、云计算、物联网之间的联系
6.1云计算
云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在居右网络接入条件的地方,就可以获取到所需IT资源。
云计算三种服务模式:IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)
云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等;
6.2物联网
即物物相连的互联网,是互联网的延伸,利用局域网或互联网等通信技术将传感器、控制器、机器、恩怨和物等通过心得方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。
物联网关键技术包括:识别和感知技术(二维码、RFID、传感器等),网络与通信技术、数据挖掘与融合技术等。