cloudera-scm-server单点故障处理及恢复
实际生产中,CDH的重要服务都可以做HA,但是cloudera-scm-server却只能单点,若cloudera-scm-server主机损坏或者服务损坏,不可能重新启动再接管集群,需要我们自己手动去恢复。这里教大家解决cloudera-scm-server单点故障的处理方法和恢复。
这里做测试:在cloudera-scm-server主机上直接kill掉scm的服务,并卸载。
卸载的时候要注意,不要delete数据库,因为在实际生产中,服务损坏是不会删除数据库的,数据库在其他服务器上。
1、将scm数据库导出,并删除scm数据库:
mysqldump -h192.128.1.1 -u root --password='password' --databases scm>scm20180307.sql
drop database scm;
2、重新安装cloudera-scm-server
安装步骤请参考:http://blog.****.net/weixin_40817778/article/details/79414166
3、安装成功后,关闭cloudera-scm-server和cloudera-scm-server-db服务:
/etc/init.d/cloudera-scm-server stop
/etc/init.d/cloudera-scm-server-db stop
4、将cloudera-scm-server服务依赖的数据库换成mysql数据库:
/usr/share/cmf/schema/scm_prepare_database.sh mysql(数据库类型) scm(数据库名称) -h192.168.1.1(mysql服务器的地址) -uroot -pabc123 --scm-host192.168.1.1(server安装地址) scm scm scm
5、将备份的数据导入到scm数据库:
mysql:source scm20180307.sql
6、启动cloudera-scm-server和每台服务器上的agent服务:
/etc/init.d/cloudera-scm-server start
/etc/init.d/cloudera-scm-agent restart(不重启,web会不识别agent)
7、点击升级agent,因为在卸载cloudera-scm-server的时候,这台服务器的agent也会受影响(以前5.4的时候没有出现这种情况,请按照实际情况按需执行。)
至此,已经解决单点故障: