大数据Hadoop学习笔记(五)
分布式部署
- 本地模式Local Mode
- 分布式Distribute Mode
- 伪分布式
- 一台机器运行所有的守护进程
- 从节点DN和NM只有一个
- 完全分布式
- 有多个DN、NM
- 在配置文件&HADOOP_HOME/etc/hadoop/slaves中配置
- 伪分布式
三台机器:
192.168.220.133 hdp-node-01 3g 1核CPU
192.168.220.131 hdp-node-02 2G 1核CPU
192.168.220.132 hdp-node-03 2G 1核CPU
配置映射:/etc/hosts
192.168.220.133 hdp-node-01
192.168.220.131 hdp-node-02
192.168.220.132 hdp-node-03
安装
分布式的集群配置在192.168.220.130 机器的/opt/app文件夹中
服务规划:
. | hdp-node-01 | hdp-node-02 | hdp-node-03 |
---|---|---|---|
HDFS | NameNode | . | SecondaryNameNode |
. | DataNode | DataNode | DataNode |
YARN | ResourceManager | ||
. | NodeManager | NodeManager | NodeManager |
MapReduce | JobHistoryServer |
配置:
- hdfs
- hadoop-env.sh
- core-site.xml
- hdfs-site.xml
- slaves
- yarn
- yarn-env.sh
- yarn-site.xml
- slaves
- mapreduce
- mapred-env.sh
- mapred-site.xml
分发节点 SCP协议:
- 配置ssh无**登陆
cd .ssh/
如果没有ssh目录运行:ssh localhost
ssh-copy-id hdp-node-02
ssh-copy-id hdp-node-03 - 分发
scp -r ./hadoop-2.5.0/ [email protected]:/opt/app/
scp -r ./hadoop-2.5.0/ [email protected]:/opt/app/ - 在02机器上配饰ResourceManager
删除02、03ssh目录下所有文件
在01机器上重新ssh-copy-id hostname
在02机器上运行命令:
ssh-****** -t rsa(加四个回车)
ssh-copy-id hdp-node-02
ssh-copy-id hdp-node-01
ssh-copy-id hdp-node-02
启动:
- [[email protected] hadoop-2.5.0]# bin/hdfs namenode -format
- [[email protected] hadoop-2.5.0]# sbin/start-dfs.sh
- [[email protected] hadoop-2.5.0]# sbin/mr-jobhistory-daemon.sh start historyserver
- [[email protected] hadoop-2.5.0]# sbin/start-yarn.sh
集群搭建完成之后(面试常问):
- 基本测试
- 服务是否启动,能否完成简单的应用
- hdfs
- 读写操作
- bin/hdfs dfs -mkdir -p 目录
- bin/hdfs dfs -put 文件路径 存放路径
- bin/hdfs dfs -text 文件目录
- yarn
- 运行一个程序 run jar
- mapreduce
- bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/root/mapreduce/wordcount/input/word.input /user/root/mapreduce/wordcount/output
- 基准测试
- 测试集群的性能
- hdfs
- 写数据
- 读数据
- hdfs
- 测试集群的性能
- 监控集群
- cloudera
- cloudera manager
- 可以辅助我们部署安装
- 监控集群
- 对集群进行配置、同步(如:时间同步)、更新、预警等等