[问题已处理]-kill引起的阿里云控制台和终端都无法成功ssh虚拟机
今天用jenkins部署的时候 发现ansible 一直没有返回结果 只能强行kill
登录ansible服务器 发现ansible进程 全部在等待部署服务器22端口的响应
直接ssh 尝试连接部署服务器,没法连接,登录阿里云控制台也无法登录.
工单回复如下
打了快照恢复了一台服务器,用于排查故障. 查看到这么一条历史命令. 因为有java项目包含system模块,估计也是同事没有注意 直接杀了所有系统服务. 恢复出来的服务器ssh服务也是关闭的.
查看安骑士和jumpserver跳板机核对命令执行时间和执行者
ps -ef |grep system |grep -v grep |awk '{print $2}' |xargs kill
测试在本地服务器上执行这个命令 本地镜像是官方下载的最简版centos7
会出现ssh 需要一段时间才可以连上的情况
等待一段时间之后 这些服务还是会起来的.
在阿里云服务器上测试这条命令 系统是阿里云提供的centos7
看到服务被杀死之后 只起来了一个,其余直接挂掉了.
进行重启 发现无法生效.
控制台重启之后 system服务才恢复
看到有篇博客说有bug.
联系到生产环境,的确是有crontab 但是不确定是这个问题导致的.
但是ssh速度 的确是降低了很多.
测试了一个* * * * * date > /tmp/date.txt的定时任务 还是可以ssh上,cpu也并没有满载.
ssh 服务还是可用的,提示输入账号 密码的.用阿里云控制台连接密码还没输完.然后控制台也hang住了
正常服务器telnet22端口 输入信息的返回
故障服务器telnet22端口 输入信息的返回.没有返回信息 只有超时
初步结论是服务器的22端口假死.服务还是起着的 ,但是已经不接受新的ssh请求.类似于上面systemd-logind回收不及时的bug,因为阿里云systemd-logind被kill是不会再启动的.
而且还是偶现.可能要配上大量数据交互的情况
https://blog.****.net/a19891024/article/details/76889244