提醒:本文不适用于配备至强可扩展处理器的较新系统。对于较新的系统,请查看本文配备英特尔至强可扩展处理器的 Dell PowerEdge 服务器上什么是 DDR4 自我修复。
通过交换测试对 PowerEdge 系统上的内存错误进行故障处理
在一个或多个内存 DIMM 位置上报告单位错误 (SBE) 和/或多位错误 (MBE) 时,原因可能不在于 DIMM 本身,因此必须执行一些简单的故障处理以确定故障的确切位置。有关 R715 上的 iDRAC 界面中出现的内存错误的示例,请参阅 图 1 。
图 1:iDRAC 6 日志中显示的内存错误 (仅限英文)
隔离内存问题意味着将内存 DIMM 交换到不同的内存插槽、通道、插槽和控制器。有几种方法可以交换 DIMM 以缩小故障范围。您可能需要使用这些方法中的多种方法来查明故障的 DIMM 或插槽。下面,您可以找到这些方法的表示形式。为了简单明了解释,我们假设故障 DIMM 是 A1 或图像中用蓝色标记的一组之一。
成组(按通道或条)而不是单独交换 DIMM 是识别故障 DIMM 的最佳方法。
一旦确定一组 DIMM 包含故障 DIMM,则可以使用移动单个 DIMM 来识别发生故障的 DIMM。
将 DIMM A1(用蓝色标记)与 DIMM A9(用红色标记)进行交换,以便在不同内存通道和内存组中尝试 DIMM
图 2:将 DIMM A1 与 DIMM A9 进行交换
将 DIMM A1(用蓝色标记)与 DIMM B1(用红色标记)交换会将 DIMM 置于完全不同的内存控制器 (CPU) 上。
图 3:将 DIMM A1 与 DIMM B1 进行交换
将整个 DIMM 条(A1、A2、A3 — 标记为蓝色)与另一个条(B1、B2、B3 — 标记为红色)交换,在新的内存控制器上的新条中测试整个 DIMM 条。
图 4:将 DIMM A1、A2、A3 与 DIMM B1、B2、B3 进行交换
将整个 DIMM 通道(A1、A4、A7 — 标记为蓝色)与另一个通道(B1、B2、B3 — 标记为红色)交换,在新通道和新内存控制器上检测整个 DIMM 通道。
图 5:将 DIMM A1、A4、A7 与 DIMM B1、B4、B7 进行交换
通常,DIMM 错误往往发生在错误中标识的 DIMM。例如,对于 DIMM A1 上的 SBE 报告,将此 DIMM 与不同的 DIMM 交换会导致以下情况之一:
不适用
不适用