2020.10.5 8天假期均白给之今天遇到的问题:关于正确启动HA集群的步骤

前言:人家研究生都有8天假期,我不配,我学校不比人家好,所以我只能学习(手动微笑)

HA配置如下

namenode: demo01  demo02
datanode: demo03 demo04  demo05
journalnode demo03  demo04  demo05
zookeeper  demo03 demo04  demo05
resourcemanager demo01  demo02
nodemanager demo03 demo04 demo05

今天遇到的问题:可能是因为之前关闭整个集群的顺序有问题或是操作不当,今天重新开集群的时候步骤是:

  1. demo01:start-all.sh
  2. demo02:  yarn-damen.sh start resourcemanager
  3. demo030405:  zkServer.sh start

结果检查每个端口的jps发现demo01的DFSZKFailoverController没启动,但是02的却启动了,而01的resourcemanager刚刚还有,过一会儿再jps就发现没有了。。。

解决办法:https://www..com/article/90721858583/

1、关闭所有进程:
stop-all.sh
每个虚拟机上操作一遍下面命令确保关闭
rm -rf /tmp/hsperfdata_*
启动zookeeper:
zkServer.sh start
然后格式化:hdfs zkfc -formatZK

然后关闭重启zookeeper
启动集群:start-all.sh

结果:

2020.10.5 8天假期均白给之今天遇到的问题:关于正确启动HA集群的步骤

成功。

于是顺便好好总结一下正确的打开HA集群和关闭集群的方法

启动

  1. 先在03 04 05上启动zookeeper

    [[email protected]]:
        zkServer.sh start

    [[email protected]]:
        zkServer.sh start
        
    [[email protected]]:
        zkServer.sh start

  2. 检查zookeeper状态:zkServer.sh status,一般情况下上一步没报错就没问题
  3. 在任一namenode上启动start-all.sh
  4. 在demo02上单独启动resourcemanager,这个可能是我使用版本的小bug:yarn-damen.sh start resourcemanager
  5. jps验证,结果应该是(我此处省略了jps,它不重要):

    demo01,demo02:
             NameNode
             DFSZKFailoverController
             ResourceManager

    demo03,demo04,demo05:
             DataNode
             JournalNode
             QuorumPeerMain
             NodeManager

关闭:

  1. demo01:stop-all.sh
  2. demo02:yarn-daemon.sh stop resourcemanager
  3. demo03 04 05:zkServer.sh stop

明天如果我按此顺序启动成功的话,就谢天谢地。