WM视讯平台 WM

当前位置 > WM视讯平台 WM > 服务 > 服务器 > KunTai R622内存故障问题分析

KunTai R622内存故障问题分析

发布时间:2025-12-29

一、现网描述

1.1 环境描述

设备型号:KunTai R622

 

二、故障描述

2.1故障现象

服务器ibmc 出现告警事件,DIMM060槽位内存发生不可纠正错误

image.png

三、问题分析

3.1排查思路

1.Sel日志中时间点为2023-11-07 15:05:35 DIMM060上报UCE记录

image.png

2.Fdm日志中记录到对应时间点DIMM060大量UEO(潜伏错误或可重启错误)告警

image.png

常见内存故障类型分为可纠正错误(CE)、不可以纠正错误(UCE)、延迟的错误(DE)

Corrected error:可纠正错误(CE),该错误被检测到并且被纠正,不影响系统运行,比如内存DDR单bit错误,可以顺利获得ECC纠正。

Deferred error:延迟的错误(DE),没有被沉默(silently)传播,可能是系统潜在的错误。比如内存控制器写数据到内存条,发现要写的数据存在不可纠正错误,它会将该错误数据写到内存,并打上poison标记,则为deferred错误。

Uncorrected error:不可纠正错误(UE),该错误被检测到且未被纠正或延迟,它又可划分为下面几个子类:潜伏错误或可重启错误(UEO)、带标记错误或可恢复错误(UER)、不可恢复错误(UEU)、不可抑制错误(UC)。

3.fdm_output日志中记录DIMM060内存由于频繁UCE导致的PFAE事件,下一时间点有多次UCE产生,如下图:

image.png

四、问题解决

4.1解决办法

DIMM060内存硬件产生UEO(潜伏错误或可重启错误),该内存故障告警可顺利获得重启服务器恢复。但DIMM060内存PFA错误计数超门限,建议更换内存,避免后续出现设备异常重启或停止响应的故障风险。

4.2 解决方案

"DIMM060 triggered an uncorrectable error, (SN:857E325E).","2023-11-07 15:05:35","Asserted","0x01000017" 告警事件常用处理步骤如下:

1.下电后检查该部件与其插槽是否存在损坏或接触不良现象。

是 => 2

否 => 3

2.重新连接该部件,检查告警是否清除。

是 => 处理完毕

否 => 3

3.更换产生告警的内存,检查告警是否清除。

 

400-810-9119
7天*24小时全天候接听客户的任何需求。是接入最快捷、响应最及时的全真人服务窗口,节假日无休;并为VIP客户设置专属坐席,让最分析您的服务代表时刻为您服务。
除了常规技术问题的服务请求,客户对于服务有任何建议和意见,可顺利获得服务邮箱发送邮件,邮件将直达服务经理,为您给出满意的答复。
官方微信
  • WM视讯平台 WM

微信搜索【WM视讯平台 WM】公众号,点击对话窗口发送信息,和WM视讯平台 WM进行沟通,解决您随时想到的任何咨询。