记一次安装有was中间件的虚拟机经常蓝屏、高CPU故障诊断
故障现象
近期某客户反应安装有was中间件的虚拟机经常出现以下问题:
- 虚拟机无响应。
- 虚拟机出现故障,并显示蓝色诊断屏幕。
- ESXi主机(运行虚拟机)的CPU使用率异常升高。
分析详情
首先猜测是was中间件的故障导致的虚拟机蓝屏死机,所以通过获取was的
进程日志
标准输出文件名
native_stdout.log
标准错误文件名
${SERVER_LOG_ROOT}/native_stderr.log
JVM日志
Java 虚拟机(JVM)System.out 和 System.err 日志的设置
${SERVER_LOG_ROOT}/SystemOut.log
${SERVER_LOG_ROOT}/SystemErr.log
IBM服务器日志
${LOG_ROOT}/activity.log
跟踪输出日志
${SERVER_LOG_ROOT}/trace.log
进行分析,结果未发现有严重影响服务运行的异常信息。进一步猜测可能是虚拟机的问题,接下来对虚拟机进行分析。
2 虚拟机分析
2.1 操作系统日志分析
获取操作系统日志,可以明显看到系统异常退出时的原因代码为0x805000f,
通过微软官网
https://docs.microsoft.com/en-us/windows/win32/shutdown/system-shutdown-reason-codes 查到如下信息:
目前大概知道这是系统蓝屏的日志信息,但是不知道为何蓝屏的原因,接下对系统异常时产生的dmp文件进行分析。
2.2 系统异常dmp文件分析
由于windows在异常退出的情况下,会生成如下的dmp快照文件。
通过winDeBug 工具打开上图的dmp文件,每个文件的报错信息都是一样的
至此,终于找到问题根源, vsepflt.sys 驱动程序导致Windows虚拟机变得死机、蓝屏。
整改建议
目前已经明确是当Windows虚拟机与vShield Endpoint Thin Agent(vsepflt.sys )驱动程序一起安装时导致问题。
建议如下:
- 请联系VMware工程师及时处理
- 仅供参考连接:https://kb.vmware.com/s/article/2081616