Redian新闻
>
记一次new ArrayList导致的cpu飙升问题排查

记一次new ArrayList导致的cpu飙升问题排查

公众号新闻

点击关注公众号,Java干货及时送达

来源:juejin.cn/post/7139202066362138654

  • 前言
  • 当时场景
  • 正常的jvm监控曲线图
  • 产生问题的jvm监控曲线图
  • 具体分析
  • 结束语

昨天线上容器突然cpu飙升,也是第一次排查这种问题所以记录一下~

前言

首先问题是这样的,周五正在写文档,突然收到了线上报警,发现cpu占用达到了90多,上平台监控系统查看容器,在jvm监控中发现有一个pod在两个小时内产生了61次youngGc一次fullGc,这个问题特别严重且少见,由于我之前也没有排查过此类问题,所以也是百度,但整个过程也有一些自己的思考,所以跟大家分享一下~

当时场景

我先给大家看一下一副正常的gc曲线监控(为保密性,我自己按照平台监控画了出来):

正常的jvm监控曲线图

正常的jvm监控曲线图

产生问题的jvm监控曲线图

产生问题的jvm监控曲线图

可以看的出来,正常情况下该系统很少gc(具体看业务系统使用情况、jvm内存分配),但是在图二中出现了大量异常的gc情况甚至触发了fullGc,所以我当时立马进行了分析。

具体分析

首先异常gc的情况只出现在一个pod上(系统有多个pod),在监控系统找到对应的pod,进入pod内部查看问题原因,排查问题一定要冷静

  1. 进入pod之后,输入top查看各linux进程对系统资源的使用情况(因我这是事后补稿,资源使用不高,大家看步骤即可)

图片
  1. 分析资源使用情况在当时的情况下

top

当时我的pid为1的进程cpu上到了130(多核)那我认定就是java应用出问题了,control+c退出继续往下走

  1. 输入top -H -p pid 通过此命令可以查看实际占用CPU最高的的线程的id,pid为刚才资源使用高的pid号

top -H -p pid

  1. 出现具体线程的资源使用情况,表格里的pid代表线程的id,我们称他为tid

tid

  1. 我记得当时的tip为746(上述图片只是我给大家重复步骤),使用命令printf "%x\n" 746,将线程tid转换为16进制

tid转换为16进制

因为我们线程id号在堆栈里是16进制的所以需要做一个进制转换

  1. 输入jstack pid | grep 2ea >gc.stack
jstack pid | grep 2ea >gc.stack

jstack

解释一下,jstack是jdk给提供的监控调优小工具之一,jstack会生成JVM当前时刻的线程快照,然后我们可以通过它查看某个Java进程内的线程堆栈信息,之后我们把堆栈信息通过管道收集2ea线程的信息,然后将信息生成为gc.stack文件,我随便起的,随意

  1. 当时我先cat gc.stack 发现数据有点多在容器里看不方便,于是我下载到本地浏览,因为公司对各个机器的访问做了限制,我只能用跳板机先找到一台没用的机器a,把文件下载到a然后我再把a里的文件下载到本地(本地访问跳板机OK),先输入python -m SimpleHTTPServer 8080,linux自带python,这个是开启一个简单http服务供外界访问

开启http服务

然后登录跳板机,使用curl下载curl -o http://ip地址/gcInfo.stack

为方便演示,我在图中把ip换了一个假的

curl

之后用同样的方法从本地下载跳板机就可以了,记得关闭python开启的建议服务嗷

  1. 把文件下载到了本地,打开查看编辑器搜索2ea,找到nid为2ea的堆栈信息

找到nid为2ea的堆栈信息

之后找到对应的impl根据行数分析程序

  1. 发现是在文件异步导出excel的时候,导出接口使用了公共列表查询接口,列表接口查询数据最多为分页200一批,而导出数据量每个人的权限几万到十几万不等

导出excel

并且该判断方法使用了嵌套循环里判断,且结合业务很容易 get 不到 value,Java 下的new ArrayList 就是返回一个 List 集合(好像不用说这么细 (;一_一 ),在整个方法结束之前,产生的 lists生命周期还在所以发生多次gc触发重启之后还影响到了别的pod。然后对代码进行了fix,紧急上线,问题解决~

结束语

遇到生产问题,大家不要害怕,遇到问题先保证服务是否可用,然后通过有限的信息层层解析,找出最终的问题。如果你会 arthas,排查起来会更轻松!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日最佳:后期老师的CPU都要干烧了。肝了这么多夜,总结一下:Linux各项指标监控及问题排查疗伤之旅——普吉岛之四第65届格莱美落幕,Beyoncé打破获奖历史 赢得32座格莱美奖!霉霉、Adele、Harry Styles等均或等年度大奖中国驻美使馆今日官宣:签证恢复疫情前政策!但航班稀缺导致的高票价料将持续How an Aging Artist Put His Stamp on the New Year高通骁龙 8cx Gen4 笔记本处理器新爆料:12 核 CPU,骁龙 8 Gen 2 同款 GPU到底是“Chinese New Year”,还是“Lunar New Year”?一次服务器非法重启导致的故障排查记录!CPU被「卡脖子」,中国企业纷纷换赛道:国产GPU这条路能走通吗?阿瑟同款口呼吸导致的凸嘴,这位绝色美女都没逃过?哎,丫头没回成家。。。[旅游] 浓浓的CCD相机味道 --记一次摩托车旅行 (上)[歪解] new year new me读《诗》:读《式微》有感染者CT出现白肺,什么是白肺?原因是什么?是奥密克戎导致的吗?刚刚,官方权威回应……New Chinese Animation Puts Modern Spin on Traditional StoriesCTO:谁在项目中使用Arrays.asList、ArrayList.subList,就立马滚蛋!褪黑素能预防睡眠不足导致的记忆缺陷;大型语言模型综述全新出炉:从T5到GPT-4最全盘点|本周论文推荐【双龙喜相逢】如意龙#2+《假如爱有天意》+平安夜,平安快乐!China’s Booming New Toy Market: Hyperrealistic ‘Military Lego’【九零后老妈随笔】01/23/2023 I woke up in a new surrounding!More Women Want Career Over Marriage, Having Kids: New Survey香港“第一CP”回归,全网沸腾:原来我们嗑的CP,是真的……中国驻美使馆官宣:签证恢复疫情前政策!但航班稀缺导致的高票价料将持续酒寄于情(1)"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战英特尔推最强数据中心CPU,甩出七大算力神器!还有1000亿晶体管GPU阴谋与矮化:中国新年还是阴历新年?Chinese new year or lunar new year?工作焦虑?可能是无糖饮料导致的,还会遗传给后代,研究已登PNAS一次JVM GC长暂停的排查过程肥胖导致的神经退化和阿尔茨海默病相似;新冠变异株CH.1.1在60多个国家检出,但对中国威胁很小|环球科学要闻徐金富教授等:新冠病毒XBB突变株的由来、特点和可能导致的临床应对挑战前总统特朗普 Trump surrenders to court Detonates global news media war【体育赛事】在亚特兰大现场看一次NASCAR赛事吧
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。