如何排查JVM内存问题并定位

今天收到测试小姐姐提的bug,在进行压测的时,内存和CPU都飙高,要我分析一下。

一、首先观察服务器上的内存使用情况

使用jdk自带的 jvisualvm.exe 功能(在jdk的bin目录下)

如何排查JVM内存问题并定位

打开后连接远程服务器,具体如何连接请自行百度,连接后壳查看服务器的CPU和内存等情况。

● 如果是内存泄漏,堆内存会一直往上飙,然后会出现疯狂GC的情况。

● 我这里没有出现疯狂GC的情况,而是有规律的GC,但每次GC的时候CPU都会飙到70%以上。

ps:截图是问题处理完之后的截图,当时cpu使用情况已经飙到70% ~ 100%,堆内存占用1.3G的时候就会GC一次。

如何排查JVM内存问题并定位

 二、到服务器上查看具体进程和线程:

登陆服务器,查看具体是哪个进程中的哪些线程造成CPU飙高。

1. 使用top命令查看占用CPU资源高的进程

这里可以看到PID为27737的进程占用CPU资源较高,接下来去查看这个进程是什么。

 如何排查JVM内存问题并定位

2. 使用ps aux | grep PID 命令查看具体进程信息

当然我这里肯定是一个tomcat

如何排查JVM内存问题并定位

3. 定位线程

使用top -H -p PID命令查看线程情况

主要观察CPU达到80%以上的线程,并记录其PID。

ps:截图为问题处理后的,当时有几个线程的CPU达到85%以上。

如何排查JVM内存问题并定位

4. 使用jstack命令查看问题线程信息

首先将记录的线程PID转换成16进制(用命令printf "%x\n" tid),方便使用jstack命令查看线程信息 

然后在使用 jstack 27683 | grep "694c"命令查看线程信息

这里可以看到线程名称,我当时的线程名称中包含了LOG4J,因此定位到出现问题的原因是日志。随后查看日志发现日志文件在疯狂打印。

如何排查JVM内存问题并定位

三、查看问题

通过以上步骤定位后,疑似是日志问题,随查看tomcat日志,一查吓一跳,每毫秒打印N行日志,这谁受得了。

如何排查JVM内存问题并定位

然后将日志级别改为error,问题解决。