Hadoop大数据平台架构与实践--基础篇(视频笔记)
idea开发Hadoop程序
1-2 Hadoop前世今生
变化1:成本降低,使用普通pc机
变化2:硬件故障是常态,通过软件容错
变化3:简化并行分布式计算
1-3 Hadoop功能和优势
开源的、分布式存储、分布式计算
核心组成:
HDFS
MapReduce
搭建大型数据仓库,处理PB级数据。
搜索引擎、商业智能、日志分析、数据挖掘。
优势:
高扩展、低成本、成熟的生态圈
1-4 Hadoop生态系统及版本
Hive : 写sql,然后自动将sql转MapReduce。
HBase:
zookeeper:
2-1 Hadoop安装获取Linux系统
云主机
2-2 安装jdk
2-3 配置Hadoop
3-1 基本概念
HDFS
* 块(Block)
文件被分为块进行存储
块大小默认64MB
块是文件存储和处理的逻辑单元
* NameNode
管理节点,存储元数据:
1)文件与数据块的映射表
2)数据块与数据节点的映射表
* DataNode
工作节点,存放数据块
3-2 数据管理的策略
* 数据库副本
每个数据块3个副本,分布在两个机架内的三个节点。
* 心跳检测
DataNode定期向NameNode发送心跳信息。
* 二级NameNode
二级NameNode定期同步元数据映像文件和修改日志,NameNode发生故障时,备胎转正
3-3 HDFS文件中文件的读写操作
读取文件流程:
1、文件读取请求
2、返回元数据
3、读取Blocks
写文件流程:
1、文件拆分成块
2、返回DataNodes
3、写入Blocks
4、流水线复制
5、更新元数据
3-4 HDFS特点
1、数据冗余、硬件容错
2、流式的数据访问(写一次、读多次)
3、适合存储大文件
3-5 HDFS使用
HDFS命令行
hadoop fs
4-1 MapReduce原理
分而治之的思想。
4-2 MapReduce的运行流程
基本概念:
*Job & Task
* JobTracker
* TaskTracker
MapReduce的容错机制:
1、重复执行、4次
2、推测执行
5-1 WordCount单词计数
5-3
1、编写WordCount.java,包含Mapper类和Reducer类
2、编译WordCount.java
javac -classpath
3、打包jar -cvf WordCount.jar classes/*
4、作业提交
hadoop jar WordCount.jar WordCount input output
5-4 排序