您的位置: 首页 > 文章 > 2020.10.5 8天假期均白给之今天遇到的问题：关于正确启动HA集群的步骤

2020.10.5 8天假期均白给之今天遇到的问题：关于正确启动HA集群的步骤

分类: 文章 • 2025-07-23 08:04:40

前言：人家研究生都有8天假期，我不配，我学校不比人家好，所以我只能学习（手动微笑）

HA配置如下

namenode:	demo01 demo02
datanode:	demo03 demo04 demo05
journalnode	demo03 demo04 demo05
zookeeper	demo03 demo04 demo05
resourcemanager	demo01 demo02
nodemanager	demo03 demo04 demo05

今天遇到的问题：可能是因为之前关闭整个集群的顺序有问题或是操作不当，今天重新开集群的时候步骤是：

demo01：start-all.sh
demo02: yarn-damen.sh start resourcemanager
demo030405: zkServer.sh start

结果检查每个端口的jps发现demo01的DFSZKFailoverController没启动，但是02的却启动了，而01的resourcemanager刚刚还有，过一会儿再jps就发现没有了。。。

解决办法：https://www..com/article/90721858583/

1、关闭所有进程:
stop-all.sh
每个虚拟机上操作一遍下面命令确保关闭
rm -rf /tmp/hsperfdata_*
启动zookeeper:
zkServer.sh start
然后格式化：hdfs zkfc -formatZK

然后关闭重启zookeeper
启动集群：start-all.sh

结果：

2020.10.5 8天假期均白给之今天遇到的问题：关于正确启动HA集群的步骤

成功。

于是顺便好好总结一下正确的打开HA集群和关闭集群的方法

启动

先在03 04 05上启动zookeeper
[[email protected]]:
   zkServer.sh start

[[email protected]]:
   zkServer.sh start

[[email protected]]:
   zkServer.sh start
检查zookeeper状态：zkServer.sh status，一般情况下上一步没报错就没问题
在任一namenode上启动start-all.sh
在demo02上单独启动resourcemanager,这个可能是我使用版本的小bug：yarn-damen.sh start resourcemanager
jps验证，结果应该是（我此处省略了jps，它不重要）：
demo01,demo02:
NameNode
DFSZKFailoverController
ResourceManager

demo03,demo04,demo05:
DataNode
JournalNode
QuorumPeerMain
NodeManager

关闭：

demo01:stop-all.sh
demo02:yarn-daemon.sh stop resourcemanager
demo03 04 05：zkServer.sh stop

明天如果我按此顺序启动成功的话，就谢天谢地。