2020.10.5 8天假期均白给之今天遇到的问题:关于正确启动HA集群的步骤
前言:人家研究生都有8天假期,我不配,我学校不比人家好,所以我只能学习(手动微笑)
HA配置如下
namenode: | demo01 demo02 |
datanode: | demo03 demo04 demo05 |
journalnode | demo03 demo04 demo05 |
zookeeper | demo03 demo04 demo05 |
resourcemanager | demo01 demo02 |
nodemanager | demo03 demo04 demo05 |
今天遇到的问题:可能是因为之前关闭整个集群的顺序有问题或是操作不当,今天重新开集群的时候步骤是:
- demo01:start-all.sh
- demo02: yarn-damen.sh start resourcemanager
- demo030405: zkServer.sh start
结果检查每个端口的jps发现demo01的DFSZKFailoverController没启动,但是02的却启动了,而01的resourcemanager刚刚还有,过一会儿再jps就发现没有了。。。
解决办法:https://www..com/article/90721858583/
1、关闭所有进程:
stop-all.sh
每个虚拟机上操作一遍下面命令确保关闭
rm -rf /tmp/hsperfdata_*
启动zookeeper:
zkServer.sh start
然后格式化:hdfs zkfc -formatZK
然后关闭重启zookeeper
启动集群:start-all.sh
结果:
成功。
于是顺便好好总结一下正确的打开HA集群和关闭集群的方法
启动
- 先在03 04 05上启动zookeeper
[[email protected]]:
zkServer.sh start[[email protected]]:
zkServer.sh start
[[email protected]]:
zkServer.sh start - 检查zookeeper状态:zkServer.sh status,一般情况下上一步没报错就没问题
- 在任一namenode上启动start-all.sh
- 在demo02上单独启动resourcemanager,这个可能是我使用版本的小bug:yarn-damen.sh start resourcemanager
- jps验证,结果应该是(我此处省略了jps,它不重要):
demo01,demo02:
NameNode
DFSZKFailoverController
ResourceManagerdemo03,demo04,demo05:
DataNode
JournalNode
QuorumPeerMain
NodeManager
关闭:
- demo01:stop-all.sh
- demo02:yarn-daemon.sh stop resourcemanager
- demo03 04 05:zkServer.sh stop
明天如果我按此顺序启动成功的话,就谢天谢地。