<Zhuuu_ZZ>大数据及Hadoop生态系统
大数据及Hadoop生态系统
一.大数据
1.概念
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
2.大数据特征:
4V特征
- Volume(大数据量):90% 的数据是过去两年产生
- Velocity(速度快):数据增长速度快,时效性高
- Variety(多样化):数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据 - Value(价值密度低):需挖掘获取数据价值
固有特征 - 时效性
- 不可变性
二.Hadoop
1.分布式计算
分布式计算将较大的数据分成小的部分进行处理。
2.hadoop概念
- Hadoop是一个开源分布式系统架构
- 分布式文件系统HDFS——解决大数据存储
- 分布式计算框架MapReduce——解决大数据计算
- 分布式资源管理系统YARN
- 处理海量数据的架构首选
- 非常快得完成大数据计算任务
- 已发展成为一个Hadoop生态圈
3.hadoop版本
- Hadoop起源于搜索引擎Apache Nutch
- 创始人:Doug Cutting
- 2004年 - 最初版本实施
- 2008年 - 成为Apache顶级项目
- Hadoop发行版本
- 社区版:Apache Hadoop
- Cloudera发行版:CDH
- Hortonworks发行版:HDP
4.为什么使用hadoop
- 高扩展性,可伸缩
- 高可靠性
- 多副本机制,容错高
- 低成本
- 无共享架构
- 灵活,可存储任意类型数据
- 开源,社区活跃
5.Hadoop vs RDBMS
三.Hadoop生态系统
- Hadoop核心:HDFS MapReaduce Yarn Common Core
- 数据查询分析:Hive Pig Impala Presto
- 协调管理:HCatalog Zookeeper Ambari
- 数据迁移:Sqoop Flume(实时的)
- Spark NOSQL 机器学习 任务调度
四.HDFS
1.HDFS角色
- Client:客户端
- NameNode (NN):元数据节点
- 管理文件系统的Namespace/元数据
- 一个HDFS集群只有一个Active的NN
- DataNode (DN):数据节点
- 数据存储节点,保存和检索Block
- 一个集群可以有多个数据节点
- Secondary NameNode (SNN):从元数据节点
- 合并NameNode的edit logs到fsimage文件中
- 辅助NN将内存中元数据信息持久化
2.HDFS架构
3.HDFS高可用
- 在1.x版本中
- 存在Namenode单点问题
- 在2.x版本中
- 解决:HDFS Federation方式,共享DN资源
- Active Namenode
- 对外提供服务
- Standby Namenode
- Active故障时可切换为Active
4.HDFS副本机制
- Block:数据块
- HDFS最基本的存储单元
- 默认块大小:128M(2.x)
- 副本机制
- 作用:避免数据丢失
- 副本数默认为3
- 存放机制:
- 一个在本地机架节点
- 一个在同一个机架不同节点
- 一个在不同机架的节点