大数据入门简要概述

一、大数据简史

过程一:Hadoop思想之源:2003年Google的三驾马车(未开源)
               问题一:大量的网页怎么存储(运用冗余防止数据丢失)  提出:分布式文件系统GFS
               问题二:Page-Rank的计算问题(单台机器不够算)  分布式计算框架Map-Reduce
               问题三:如何快速查到数据(响应时间仅为0.01秒,甚至更快)  NoSql数据库系统Bigtable(论文发表于2006年)

过程二:2006年Hadoop开源(基于雅虎团队):
            实现一:GFS ----------- Hadoop HDFS
            实现二:Map-Reduce ---------- Hadoop MapReduce
            实现三:Bigtable ---------- Hbase

过程三:大数据应用:数据仓库时代
           标志事件:Hive、Hbase等的开源与应用。

过程四2012年:从Yarn到百花齐放

大数据入门简要概述

2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行计算引擎

ps:yarn资源调度管理,通过ResourceManager得到请求,发送给NodeManager,最后提交给ApplicationMaster,通过这一流程来实现资源调度管理。

过程五:大数据应用:数据挖掘时代
               标志事件:Spark、TensorFlow等技术的发展

 

二、Hadoop和Hadoop生态圈

狭义上Hadoop是由数据存储HDFS、数据计算MapReduce、资源调度yarn以及辅助工具构成。

广义上Hadoop是只Hadoop生态圈,它包括了这一技术框架的整体。

Hadoop生态圈:

大数据入门简要概述

 

三、Hadoop的三大发行版本

大数据入门简要概述

ps:云计算关键技术  包括:虚拟化docker容器分布式存储分布式计算、多租户等。阿里云,腾讯云,华为云,新浪云,京东云。

 

四、Hadoop的现在和未来

在以前,数据存储廉价而网络通讯昂贵,所以使用了数据存储邮寄等方式,来解决数据访问速度低下问题。(本次读取速度>网络传输速度)

而现在,网络通讯已经很发达了,甚至速度已经超越了本地化数据的速度了,所以HDFS这种本地存储方式势必在未来会被淘汰掉。

到未来的趋势或许会是存储与计算分离或者利用高效的网络通讯来加快速度。

ps:hdfs是通过写数据(上传数据块),读数据(需要计算的数据)来架构的(通过本地化来弥补网络速度的不足)。