oracle 夯机,Oracle数据库宕机案例分享

如何完整处理一个故障,聊聊我的思路。

技术人人都可以磨炼,但处理问题的思路和角度各有不同,希望这篇文章可以抛砖引玉。

以一个例子为切入点

一、故障现象

应用无法访问,报错无法获取数据库连接,应用宕机。

数据库报错同期有报错,超过最大连接及异常被kill。

Mon Nov 23 00:06:23 2020

2868394d277a

image.gif

二、故障说明

通过宕机前DB 监控agent 采集的实例运行数据,定位异常开始具

体时间,从关键指标的趋势变化和历史监控数据,关联到OS 的内

存瓶颈,结合数据库和操作系统的监控数据,判断出故障链:应用

宕机是因为获取不到数据库连接(数据库宕机),数据库宕机是因

为OS 内存耗尽,OS 内存耗尽是因为应用发起了大量连接,应用

大量连接创建,是因为应用的连接复用出现异常。

这是数据库实例监控数据,OS 监控数据二者结合在一起,用实际

监控数据来验证我们的推断,排除掉其它干扰因素,定位数据库

宕机的根本原因,帮助其他同事快速修复。

2868394d277a

image.gif

三、故障原因


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部