论文阅读--An In-Depth Correlative Study Between DRAM Errors andServer Failures in Production Data Cente

论文题目:生产数据中心中DRAM错误与服务器故障之间的深入相关性研究

知识点1:DRAM错误

动态随机存取存储器(DRAM)在计算机存储系统中提供CPU与程序运行数据存储。

数据集:

阿里巴巴数据中心  300多万个内存模块中收集的8个月数据集

1.DRAM错误日志

   8个月内来自30496台服务器(包括正常和故障服务器)的75.1 M CEs和来自351个服务器的87186个写入错误。

在我们的分析中,我们只关注DRAM错误日志中的CEs,因为写入错误要少得多,并且不会导致数据集中的服务器故障。请注意,此处并不收集UEs,而是收集在故障单中,因为UEs的出现会导致服务器故障。

2.服务器故障故障单

  每台服务器都运行一个后台监控守护进程,监控系统级异常事件(例如:服务器崩溃),并将系统事件日志发送到我们的集中维护系统,该系统通过基于规则的检测检查任何服务器故障。如果检测到服务器故障,我们的维护系统会发出故障单,记录服务器ID,时间戳和故障类型。

3017张故障单,其中,2137张在服务器故障前显示至少一个CE,其余的故障单再服务器故障前未显示任何CE。

2137中:567个UE驱动故障 809个CE驱动故障和761个杂项故障

3.库存日志

进一步收集的有关DIMM和服务器的产品详细信息。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部