记一次new ArrayList导致的cpu飙升问题排查

电玩女神 2023-09-25 22:34 249阅读 0赞

昨天线上容器突然cpu飙升，也是第一次排查这种问题所以记录一下~

前言

首先问题是这样的，周五正在写文档，突然收到了线上报警，发现cpu占用达到了90多，上平台监控系统查看容器，在jvm监控中发现有一个pod在两个小时内产生了61次youngGc一次fullGc，这个问题特别严重且少见，由于我之前也没有排查过此类问题，所以也是百度，但整个过程也有一些自己的思考，所以跟大家分享一下~

当时场景

我先给大家看一下一副正常的gc曲线监控（为保密性，我自己按照平台监控画了出来）：

正常的jvm监控曲线图

正常的jvm监控曲线图

产生问题的jvm监控曲线图

产生问题的jvm监控曲线图

可以看的出来，正常情况下该系统很少gc(具体看业务系统使用情况、jvm内存分配)，但是在图二中出现了大量异常的gc情况甚至触发了fullGc，所以我当时立马进行了分析。

具体分析

首先异常gc的情况只出现在一个pod上（系统有多个pod）,在监控系统找到对应的pod，进入pod内部查看问题原因，排查问题一定要冷静

进入pod之后，输入top查看各linux进程对系统资源的使用情况(因我这是事后补稿，资源使用不高，大家看步骤即可)

图片

分析资源使用情况在当时的情况下

top

当时我的pid为1的进程cpu上到了130（多核）那我认定就是java应用出问题了，control+c退出继续往下走

输入top -H -p pid 通过此命令可以查看实际占用CPU最高的的线程的id，pid为刚才资源使用高的pid号

top -H -p pid

出现具体线程的资源使用情况，表格里的pid代表线程的id，我们称他为tid

tid

我记得当时的tip为746（上述图片只是我给大家重复步骤），使用命令printf “%x\n” 746，将线程tid转换为16进制

tid转换为16进制

因为我们线程id号在堆栈里是16进制的所以需要做一个进制转换

输入jstack pid | grep 2ea >gc.stack

jstack pid | grep 2ea >gc.stack

jstack

解释一下，jstack是jdk给提供的监控调优小工具之一，jstack会生成JVM当前时刻的线程快照，然后我们可以通过它查看某个Java进程内的线程堆栈信息，之后我们把堆栈信息通过管道收集2ea线程的信息，然后将信息生成为gc.stack文件，我随便起的，随意

当时我先cat gc.stack 发现数据有点多在容器里看不方便，于是我下载到本地浏览，因为公司对各个机器的访问做了限制，我只能用跳板机先找到一台没用的机器a，把文件下载到a然后我再把a里的文件下载到本地（本地访问跳板机OK），先输入python -m SimpleHTTPServer 8080，linux自带python，这个是开启一个简单http服务供外界访问

开启http服务

然后登录跳板机，使用curl下载curl -o http://ip地址/gcInfo.stack

为方便演示，我在图中把ip换了一个假的

curl

之后用同样的方法从本地下载跳板机就可以了，记得关闭python开启的建议服务嗷

把文件下载到了本地，打开查看编辑器搜索2ea，找到nid为2ea的堆栈信息

找到nid为2ea的堆栈信息

之后找到对应的impl根据行数分析程序

发现是在文件异步导出excel的时候，导出接口使用了公共列表查询接口，列表接口查询数据最多为分页200一批，而导出数据量每个人的权限几万到十几万不等

导出excel

并且该判断方法使用了嵌套循环里判断，且结合业务很容易 get 不到 value，Java 下的new ArrayList 就是返回一个 List 集合（好像不用说这么细 (；一_一），在整个方法结束之前，产生的 lists生命周期还在所以发生多次gc触发重启之后还影响到了别的pod。然后对代码进行了fix，紧急上线，问题解决~

结束语

遇到生产问题，大家不要害怕，遇到问题先保证服务是否可用，然后通过有限的信息层层解析，找出最终的问题。如果你会 arthas，排查起来会更轻松！

发表评论取消回复

表情：

评论列表（有 0 条评论，249人围观）

还没有评论，来说两句吧...

相关阅读

相关记一次cpu飙升问题排查

前言首先问题是这样的，周五正在写文档，突然收到了线上报警，发现cpu占用达到了90多，上平台监控系统查看容器，在jvm监控中发现有一个pod在两个小时内产生了61次yo

快来打我*/ 2024年03月30日 12:26/ 0 赞/ 190 阅读

相关 Java CPU 飙升问题排查

1.找到飙升进程 top 2.找到飙升线程 top -Hp <pid> 3.线程ID 16进制转换 printf "%x\n" <

客官°小女子只卖身不卖艺/ 2024年02月17日 11:27/ 0 赞/ 34 阅读

相关记一次oom问题排查

大家好，我是大彬~ 今天给大家分享最近出现的OOM问题。上周五早上，测试同学反馈测试环境的子系统服务一直超时，请求没有响应。收到这个问题之后，我有点纳闷，最近这个系统

╰半夏微凉°/ 2023年10月01日 13:17/ 0 赞/ 123 阅读

相关记一次new ArrayList导致的cpu飙升问题排查

昨天线上容器突然cpu飙升，也是第一次排查这种问题所以记录一下~ 前言首先问题是这样的，周五正在写文档，突然收到了线上报警，发现cpu占用达到了90多，上平台监控系统

电玩女神/ 2023年09月25日 22:34/ 0 赞/ 250 阅读

相关记一次 Nacos 导致的 CPU 飙高问题 !

序今天下午突然出现测试环境 cpu飙高，干到了 60%，其他项目响应时间明显变长。。。有点吓人，不想背锅项目背景出问题的项目是需要连接各个不同nac

冷不防/ 2023年09月23日 21:53/ 0 赞/ 213 阅读

相关 Java cpu飙升问题排查

1.top 命令 ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubm

末蓝、/ 2023年07月24日 08:52/ 0 赞/ 128 阅读

相关记一次生产环境CPU飙升100%的排查经历

一、前言是这样的，我的项目是使用传统的`Spring`\+`SpringMVC`\+`Mybatis`架构的，有`PC`端后台管理系统，也有微信端`H5`网页，也就是一

爱被打了一巴掌/ 2023年07月11日 05:52/ 0 赞/ 39 阅读

相关记一次java程序CPU占用过高问题排查

转载：[记一次java程序CPU占用过高问题排查][java_CPU] 问题是这样的，将项目部署到服务器上后，发现应用程序的响应速度非常慢，于是开始进行了排查。 TOP

╰半橙微兮°/ 2022年12月10日 01:19/ 0 赞/ 345 阅读

相关 CPU飙升排查思路

最近公司有个需求是对接E签宝的，也就是CA认证，大致的情况就是我们拿着文件去E签宝做CA认定，简单的理解就是拿着合同去E签宝盖章。因为是对接三方的吗，所以在调E签宝服务的

叁歲伎倆/ 2022年10月19日 05:31/ 0 赞/ 300 阅读

相关记一次CPU突然飙升到 100% 问题排查

线上 CPU 飚高问题该如何定位问题呢？是因为线程太多，导致上下文切换？还是因为应用代码中出现了死循环？还是GC频繁导致 CPU 突然飙升？该如何入手呢？

「爱情、让人受尽委屈。」/ 2021年09月18日 04:38/ 0 赞/ 632 阅读