28个案例问题分析---11---生产环境事故带来的思考--事故

淡淡的烟草味﹌ 2023-10-09 16:00 83阅读 0赞

背景

为了防止上线出现错误,我们的项目准备了A,B,两套环境。两套环境依次进行上线,如果上线出现问题的话,第一时间进行环境切换以免造成问题。但是初期的时候,使用两个环境的过程中由于人为的原因出现了很多问题。

  1. 生产环境A,没有及时进行构建
  2. 2022年5月1日发版日志没有关联需求
  3. B环境构建异常,没有及时处理
  4. 线上运行的是B环境,实际应该运行A环境。
  5. 系统跑一段时间,内存占用随着时间增加而剧增,大约一周左右时间内存到达不可用。

改进

其实上文所述,前四个问题都是可以从流程上进行避免的。虽然人做事一定会出错,但是我们可以通过制度进行管理。
例如:上线流程清单
在这里插入图片描述
通过统一的流程清单,对整个过程做好管理,尽量避免发生上述所说问题。

总结

做事的时候,必须从全局出发,有了全局去指导微观才能避免出现低级错误。人+制度+机器,更好的管理我们的流程

发表评论

表情:
评论列表 (有 0 条评论,83人围观)

还没有评论,来说两句吧...

相关阅读

    相关 由Long类型引发生产事故

    事情原由   今天测试忽然在群里发了一个看似非常简单的线上问题,具体是:在后台通过订单编号(orderId)修改订单信息时,修改不成功 ,修改前后的订单数据完全没有发生变

    相关 记一次生产事故OOM问题排查

    背景 线上应用需要进行一个涉及600W数据的操作,之前我们应用从来没有一次性应对这么大量的数据,最多就一次数十万而已。结果,这次600W的数据操作引起了生产事故,直接导致