论文阅读--An In-Depth Correlative Study Between DRAM Errors andServer Failures in Production Data Cente
论文题目:生产数据中心中DRAM错误与服务器故障之间的深入相关性研究
知识点1:DRAM错误
动态随机存取存储器(DRAM)在计算机存储系统中提供CPU与程序运行数据存储。
数据集:
阿里巴巴数据中心 300多万个内存模块中收集的8个月数据集
1.DRAM错误日志
8个月内来自30496台服务器(包括正常和故障服务器)的75.1 M CEs和来自351个服务器的87186个写入错误。
在我们的分析中,我们只关注DRAM错误日志中的CEs,因为写入错误要少得多,并且不会导致数据集中的服务器故障。请注意,此处并不收集UEs,而是收集在故障单中,因为UEs的出现会导致服务器故障。
2.服务器故障故障单
每台服务器都运行一个后台监控守护进程,监控系统级异常事件(例如:服务器崩溃),并将系统事件日志发送到我们的集中维护系统,该系统通过基于规则的检测检查任何服务器故障。如果检测到服务器故障,我们的维护系统会发出故障单,记录服务器ID,时间戳和故障类型。
3017张故障单,其中,2137张在服务器故障前显示至少一个CE,其余的故障单再服务器故障前未显示任何CE。
2137中:567个UE驱动故障 809个CE驱动故障和761个杂项故障
3.库存日志
进一步收集的有关DIMM和服务器的产品详细信息。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
