Hadoop核心组件以及发行版
Hadoop核心组件之分布式存储框架HDFS
- 源于Google的GFS论文,论文发表与2003年10月
- HDFS时GFS的克隆版
- HDFS特点:扩展性很好、容错性很好、能够存储海量数据
- HDFS将文件切分成指定大小的数据块并以多副本的存储在多个机器上
Hadoop核心组件之分布式计算框架MapReduce
- 源于Google的MapReduce论文,论文发表于2004年12月
- Hadoop MapReduce就是Google MapReduce的克隆版
- MapReduce特点:扩展性、容错性、海量数据离线处理
Hadoop核心组件之资源调度系统YARN
- YARN:Yet Another Resource Negotiator
- 负责整个集群资源的管理和调度
- YARN特点:扩展性、容错性、多框架资源统一调度(Pig,Storm,Spark,Flink,Solr等框架都可以跑在YARN之上)
Hadoop优势
- 高可靠性
- 数据存储:数据块多副本
- 数据计算:重新调度作业计算
- 高扩展性
- 存储/计算资源不够时,可以横向的线性扩展机器
- 一个集群中可以包含数以千计的节点
- 存储在廉价的机器中,降低成本
- 成熟的生态圈
狭义Hadoop VS 广义Hadoop
- 狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)平台
- 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一个子系统只解决某一个特定的问题域(甚至可能更窄),不搞统一型的一个全能系统,而是小而精的多个小系统;
Hadoop生产环境下常用的发行版及选型
Hadoop常用的发行版
- Apache:
- 优点:纯开源
- 缺点:不同版本/不同框架之间整合较麻烦;jar冲突比较多
- CDH
- 优点: cm(cloudera manager),通过页面一键安装各种框架、升级非常方便,支持impala
- 缺点:cm不开源、与社区版本有些许出入
- Hortonworks:HDP, 企业发布自己的数据平台可以直接基于页面框架进行改造
- 优点:原装hadoop、纯开源、支持tez
- 缺点:企业级安全框架不开源
- MapR
在生产环境中,优先选择CDH或者HDP发行版