Hadoop核心组件以及发行版

Hadoop核心组件之分布式存储框架HDFS

  • 源于Google的GFS论文,论文发表与2003年10月
  • HDFS时GFS的克隆版
  • HDFS特点:扩展性很好、容错性很好、能够存储海量数据
  • HDFS将文件切分成指定大小的数据块并以多副本的存储在多个机器上

Hadoop核心组件之分布式计算框架MapReduce

  • 源于Google的MapReduce论文,论文发表于2004年12月
  • Hadoop MapReduce就是Google MapReduce的克隆版
  • MapReduce特点:扩展性、容错性、海量数据离线处理

Hadoop核心组件之资源调度系统YARN

  • YARN:Yet Another Resource Negotiator
  • 负责整个集群资源的管理和调度
  • YARN特点:扩展性、容错性、多框架资源统一调度(Pig,Storm,Spark,Flink,Solr等框架都可以跑在YARN之上)

Hadoop优势

  • 高可靠性
    • 数据存储:数据块多副本
    • 数据计算:重新调度作业计算
  • 高扩展性
    • 存储/计算资源不够时,可以横向的线性扩展机器
    • 一个集群中可以包含数以千计的节点
  • 存储在廉价的机器中,降低成本
  • 成熟的生态圈

狭义Hadoop VS 广义Hadoop

  • 狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)平台
  • 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一个子系统只解决某一个特定的问题域(甚至可能更窄),不搞统一型的一个全能系统,而是小而精的多个小系统
    Hadoop核心组件以及发行版

Hadoop生产环境下常用的发行版及选型

Hadoop常用的发行版

  • Apache:
    • 优点:纯开源
    • 缺点:不同版本/不同框架之间整合较麻烦;jar冲突比较多
  • CDH
    • 优点: cm(cloudera manager),通过页面一键安装各种框架、升级非常方便,支持impala
    • 缺点:cm不开源、与社区版本有些许出入
  • Hortonworks:HDP, 企业发布自己的数据平台可以直接基于页面框架进行改造
    • 优点:原装hadoop、纯开源、支持tez
    • 缺点:企业级安全框架不开源
  • MapR
    在生产环境中,优先选择CDH或者HDP发行版