【小方带你学Hadoop】1.Hadoop简介

课程简介

课程链接

Hadoop大数据平台架构与实践

  1. 大数据技术的相关概念
  2. Hadoop的架构和运行机制
  3. 实战:Hadoop的安装与配置
  4. 实战:Hadoop开发

学习目标

  • 掌握大数据存储于处理技术的原理 (理论知识)
  • 掌握Hadoop的使用和开发能力 (实践能力)

学习建议

结合书本,知识点更加系统全面

Hadoop技术详解
Hadoop权威指南

实践经验很重要,边听课边实践
坚持很重要

预备知识

Linux常用命令
java编程基础

Hadoop的前世今生

数据无处不在,数据增长越来越快。从海量数据中挖掘更多信息。
如何对大数据进程存储和分析呢?

系统瓶颈:

  • 存储容量
  • 读写速率
  • 计算效率

Google大数据技术

MapReduce、BigTable、GFS被称为革命性的技术
革命性的变化:

  1. 降低成本,普通PC机就可以保存数据
  2. 硬件故障视为常态,通过软件容错保证可靠性
  3. mapreduce简化并行分布式计算,无须控制节点同步和数据交换
    但是Google只发表了相关的技术论文,没有开放源代码

一个模仿Google大数据技术的开源实现来了。
Hadoop
黄色的小象
【小方带你学Hadoop】1.Hadoop简介

Hadoop的功能与优势

Hadoop是什么

开源的分布式存储分布式计算平台
【小方带你学Hadoop】1.Hadoop简介

Hadoop的组成

包含两个核心组成

  • HDFS:分布式文件系统,存储海量的数据
  • MapReduce:并行处理框架,实现任务分解和调度

Hadoop可以做什么

搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
如:搜索引擎、商业智能、日志分析、数据挖掘等等

Hadoop的优势

  1. 高扩展 (简单增加一些硬件就可以得到性能的提升)
  2. 低成本 (不依赖高端硬件,普通PC机就可以实现)
  3. 成熟的生态圈 (各种功能组件,降低门槛)
    【小方带你学Hadoop】1.Hadoop简介

Hadoop人才

  1. Hadoop分布式的开发
  2. Hadoop系统的运维和优化

Hadoop的生态系统及版本

【小方带你学Hadoop】1.Hadoop简介
最主要的两个核心组件是HDFS和MapReduce。其余的还有一些开源工具组件

Hive

【小方带你学Hadoop】1.Hadoop简介
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
中文意思为小蜜蜂,代表着一种牵引作用。利用hive,可以不用编写复杂的hadoop任务程序,只需要编写sql语句,hive就可以转化为hadoop任务去执行。
【小方带你学Hadoop】1.Hadoop简介

HBASE

一种存储结构化数据的分布式数据库。
下面两个图分别将HBASE和HDFS以及关系型数据库进行对比
【小方带你学Hadoop】1.Hadoop简介
【小方带你学Hadoop】1.Hadoop简介

zookeeper

动物管理员。监控Hadoop集群中每个节点的状态,管理集群的配置,维护节点之间数据的一致性等等
【小方带你学Hadoop】1.Hadoop简介

Hadoop的版本

【小方带你学Hadoop】1.Hadoop简介
目前发展到2.6的版本。1.x与2.x之间差别还是很大的。
课程选择1.2的版本,因为1.2是一个比较稳定的版本。
1.x的版本更容易上手。