记生产环境的又一次bug

淡淡的烟草味﹌ 2022-02-21 06:47 438阅读 0赞

距离上一次大bug过去了两三个月，稳定了一段时间后，最近出现的bug情况是：

        堆使用正常， 线程正常， tomcat 日志也正常没报错。   但是cpu使用率频繁百分之百， 频繁gc.导致用户反应程序使用时会卡顿。 。

现象为:

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhbmdfamlhbl9kb25n_size_16_color_FFFFFF_t_70

          jvm 参数设置为： 最大堆 -Xmx4096m，初始化 -Xms4096m, 新生代 -Xmn2048m,   GC回收器是  CMS.

新生代内存是一个 eden + survivor, 默认比例是 8：1， eden区内存大小为： 1658112kb, survivor区内存大小为：207232kb.

内存分配及使用这一块是没什么问题，然后加上 -XX:+PrintGCDateStamps -XX:+PrintGCDetails -Xloggc:/soft/gclog/gc.log

打印gc的日志分析后，找到了原因：

 同事在代码的catch中  加入了   system.gc   方法。 这个接口是第三方接口，调用有时候会报错。 所以导致  发生  full  gc,   
 而  full  gc  是会触发   stw (stop-the- word) ，也就是 在full gc时  会让应用程序停顿。 所以会导致  cpu 百分之百， 频繁gc.

解决方法就是：将代码中的System.gc 注释，然后将备机的 tomcat的war包下载，替换 class后上传到tomcat. 在备机重启后。在dubbo-admin中将这个接口服务的主机服务禁用，主备机接口调用全都调用备机的。

gc日志：

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhbmdfamlhbl9kb25n_size_16_color_FFFFFF_t_70 1

新生区的 eden区：

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhbmdfamlhbl9kb25n_size_16_color_FFFFFF_t_70 2

新生区的 survivor区：

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhbmdfamlhbl9kb25n_size_16_color_FFFFFF_t_70 3

在备机重启后的状态就恢复正常:

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhbmdfamlhbl9kb25n_size_16_color_FFFFFF_t_70 4

发表评论取消回复

表情：

评论列表（有 0 条评论，438人围观）

还没有评论，来说两句吧...

相关阅读

相关记一次MySQL生产环境事故问题

场景：查看当前时间是否在某一时间内例如当前是 `周一上午10`点，就要去数据库查是否有`每周一上午9-11点`的数据关键sql片段： AND bw.w

╰半橙微兮°/ 2023年06月09日 12:30/ 0 赞/ 112 阅读

相关记一次redis生产环境中，使用通配符删除key的bug

1，因业务需要，需要通过通配符删除redis指定的key，逻辑代码很简单,当时以为这个会执行很快，不应该会有问题，因为redis链接的是腾讯云的redis，不支持通配符直接删除

阳光穿透心脏的1/2处/ 2023年02月19日 05:27/ 0 赞/ 20 阅读

相关记又一次解决生产环境宕机问题（业务系统）

原文：https://my.oschina.net/u/3345762/blog/1784199 写在前面：该篇宕机问题的排查难度远比上一篇（[记一次解决线上OOM的心路历程

冷不防/ 2022年05月28日 02:59/ 0 赞/ 330 阅读

相关记又一次解决生产环境宕机问题（业务系统）

摘要: OOM low memory 宕机内存调优写在前面：该篇宕机问题的排查难度远比上一篇（[记一次解决线上OOM的心路历程][OOM]）大的太多，上一篇中内存泄漏的问

ゝ一纸荒年。/ 2022年05月28日 02:29/ 0 赞/ 385 阅读

相关 springboot记一次bug

报错信息： java.io.FileNotFoundException: /usr/local/businesslogannalyzejob.jar!/BOOT-INF/cl

我不是女神ヾ/ 2022年05月13日 04:36/ 0 赞/ 514 阅读

相关记一次生产环境的严重bug

在系统部署生产环境后，在十天左右就会出现系统反应慢，堆爆了，cpu占用百分百的情况。在重启tomcat后情况就恢复了。在经过详细的跟踪，线程dump, 堆dump

朱雀/ 2022年04月22日 18:18/ 0 赞/ 419 阅读

相关记一次Bug

这个Bug查了好几个小时… 如此愚蠢的一个Bug… 给自己跪了. <Menu onClick={this.getComponen

向右看齐/ 2022年04月11日 14:27/ 0 赞/ 472 阅读

相关记生产环境的又一次bug

距离上一次大bug过去了两三个月，稳定了一段时间后，最近出现的bug情况是：堆使用正常，线程正常， tomcat 日志也正常没报错。但是

淡淡的烟草味﹌/ 2022年02月21日 06:47/ 0 赞/ 439 阅读

相关记一次Layui的bug

当页面高度不够的时候,时间选择器会出现弹不出来的情况,代码中添加 ,trigger: ‘click’,以点击的方式触发即可. ![在这里插入图片描述][watermar

电玩女神/ 2021年09月20日 19:54/ 0 赞/ 596 阅读

相关记一次生产环境大面积404问题！

写在前面发布到线上的接口服务一直好端端的，今天突然运营反馈说很多功能无法正常使用。经过排查，发现前端调用后端接口时，部分接口出现404的现象。今天，我到公司比较晚，肯定

朴灿烈づ我的快乐病毒、/ 2021年09月07日 06:13/ 0 赞/ 429 阅读