oracle 夯机,Oracle数据库宕机案例分享
如何完整处理一个故障,聊聊我的思路。
技术人人都可以磨炼,但处理问题的思路和角度各有不同,希望这篇文章可以抛砖引玉。
以一个例子为切入点
一、故障现象
应用无法访问,报错无法获取数据库连接,应用宕机。
数据库报错同期有报错,超过最大连接及异常被kill。
Mon Nov 23 00:06:23 2020
image.gif
二、故障说明
通过宕机前DB 监控agent 采集的实例运行数据,定位异常开始具
体时间,从关键指标的趋势变化和历史监控数据,关联到OS 的内
存瓶颈,结合数据库和操作系统的监控数据,判断出故障链:应用
宕机是因为获取不到数据库连接(数据库宕机),数据库宕机是因
为OS 内存耗尽,OS 内存耗尽是因为应用发起了大量连接,应用
大量连接创建,是因为应用的连接复用出现异常。
这是数据库实例监控数据,OS 监控数据二者结合在一起,用实际
监控数据来验证我们的推断,排除掉其它干扰因素,定位数据库
宕机的根本原因,帮助其他同事快速修复。
image.gif
三、故障原因
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
