iDRAC 记录以下事件:超过 DIMM(银行/插槽)的 MEM0702 可纠正内存错误率
可纠正内存错误是一种单位错误,如果在写入或读取操作过程中错误地将 1 更改为0 或将 0 更改为 1,就会出现这一错误。识别出错的特定单位后,可以通过补充错误单位的方式纠正错误。戴尔认证的 DIMM 将自动执行此纠正。
在极少数情况下,当 SEL 日志中记录可纠正的内存错误后,服务器可能会重新启动。这仅出现在 BIOS 版本 2.3.x 中。
示例:
MEM0701 Warning Correctable memory error rate exceeded for DIMM_xx.
MEM0702 Critical Correctable memory error rate exceeded for DIMM_xx.
LC 日志示例:
2017-03-07 23:08:02 SYS1003 System CPU Resetting.
2017-03-07 23:08:02 SYS1001 System is turning off.
2017-03-07 23:08:02 MEM0702 Correctable memory error rate exceeded for DIMM_xx.
为解决重新启动问题,应将 BIOS 更新到最新版本。如果出于操作原因无法更新,应将 BIOS 设置为最低版本,如下所示:
R430 | 2.4.2 |
T430 | 2.4.2 |
R530 | 2.4.2 |
T630 | 2.4.2 |
R630 | 2.4.3 |
R730 | 2.4.3 |
R830 | 1.4.2 |
C4130 | 2.4.2 |
C6320 | 2.4.2 |
所有模块化刀片服务器 | 2.4.2 |
更多信息
此问题主要在 PowerEdge R630 和 R730 中报告过,但所有 BIOS 版本为 2.3.x 的 13G 服务器都可能出现此问题。2.3.x 版的 BIOS 进行了更改,以进行更多的安全策略数据库 (SPD) 日志记录,这样就引起此特定问题:
“超过内存可纠正错误的临界阈值后,BIOS 增强型 SPD 日志记录中的空指针取消引用会导致系统进行机器检查或锁定。”
前面引用的受影响平台的 BIOS 版本将修复服务器重新启动问题以及可纠正错误率过高的消息。
该问题主要在 R630 和 R730 中报告过。 所有 BIOS 版本为 2.3.x 的 PowerEdge 13G 服务器都可能存在这一问题。