Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

配备英特尔至强可扩展处理器的 Dell PowerEdge 服务器上的 DDR4 自我修复是什么

Summary: 采用 DDR4 的 PowerEdge 服务器上可纠正和不可纠正的内存错误以及对故障处理步骤的更改

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

在配备英特尔至强可扩展处理器(第一代或第二代)且 BIOS 版本为 2.1.x 或更高版本的 Dell PowerEdge 服务器上,什么是 DDR4“自我修复”?

在服务器上遇到内存错误时,这些 DDR4“自我修复”功能(BIOS 增强功能)如何改变建议的客户和技术支持操作?

较新的 BIOS 版本中有哪些“自我修复”增强功能?

Cause

Dell PowerEdge BIOS 有持续的改进和增强功能,以改善服务器重新启动时发生的内存事件消息传递、错误处理和“自我修复”。这样就无需计划维护窗口或现场人员来更换记录错误事件的 DDR4 内存 DIMM。

Resolution

运行 BIOS 2.1.x 和更高版本并配备 DDR4 的 PowerEdge 服务器有两个主要的与内存相关的“自我修复”BIOS 增强功能。当内存事件发生并记录到 LifeCycle 日志中时,这些增强功能确实会改变建议的步骤或操作。

提醒:
  • 如果在 BIOS 2.0 或更低版本上运行 DDR4 时遇到内存错误,请将 BIOS 更新到最新版本,其中包括许多内存自我修复功能和持续增强功能。我们始终鼓励客户更新到最新的可用 BIOS 版本(和 iDRAC 固件),以便他们可以利用最新的自我修复增强功能。
  • 以前的内存故障处理步骤包括将故障 DIMM 移至不同的插槽,以确认错误是跟随 DIMM 还是仍然跟随 DIMM 插槽。对于 BIOS 2.1.x 或更高版本,第一个推荐步骤是重新启动(无需将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需计划任何 DIMM 更换。

1.内存重新安排 增强功能

内存重新安排发生在启动过程中(在“配置内存”步骤的较早操作),可优化每个 DIMM/插槽的信号计时和裕度以获得最佳访问效果。DIMM 的内存信号计时和裕度特征可能会随着时间的推移而变化,原因有多种:

  • 服务器内存配置更改
  • BIOS 更改(内存参考代码 - MRC)
  • 不同的服务器或 DIMM 运行温度
  • DIMM 的一般使用期限

之前,当检测到 BIOS 更新或内存配置更改时,会在后续的启动中进行内存重新安排。从 BIOS 2.1.x 开始,为内存重新安排增加了可纠正和不可纠正内存错误的“触发器”:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

只要任意以上错误被记录在 SEL/LifeCycle 日志中,都将为下一次重新启动(热重启或冷重启)安排内存重新安排。无论启动什么,BIOS 都会自动强制进行冷重启。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

如果操作系统无法处理该错误,此多位错误可能会导致服务器重新启动,因为存在致命错误。在该启动过程中,将自动进行内存重新安排。如果在非关键内存位置发生操作系统能够处理的多位错误,则必须计划重新启动。

开机自检期间的内存重新安排可能会优化信号时序和裕度,从而“自我修复”故障 DIMM 和相关插槽。无需为这些错误更换 DIMM,除非启动过程中内存重新安装失败 (UEFI0106) 或这些错误继续出现。
 

2.开机自检软件包修复 (PPR)

第二个“自我修复”记忆增强功能是 PPR。PPR 通过禁用硬件层上的位置或地址来修复故障内存位置,转而使用备用内存行。可用的备用内存行的确切数量取决于 DRAM 设备和 DIMM 大小。

此前,此功能仅限于制造过程。与上文提到的内存重新安排增强功能一样,某些可纠正的内存错误会导致在下一次重新启动(热重启或冷重启)时在特定 DIMM 插槽上计划 PPR。无论启动什么,BIOS 都会自动强制进行冷重启。由于在特定 DIMM 插槽上安排了 PPR 操作,因此在运行 PPR 操作之前,请勿更改 DIMM 插槽位置。错误示例如下:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

日志中的任何这些事件都会导致在“配置内存”阶段早期为下一次重新启动(热重启或冷重启)计划 PPR。

提醒:如果在同一 DIMM 位置没有相应的 MEM0005/MEM0701/MEM0702,则消息 ID MEM8000(在位置 DIMM_XX 处的内存设备禁用可纠正的内存错误日志记录)不会导致为下一次重新启动计划 PPR。

有关 MEM8000 事件的更改,请参阅 2020 年 7 月 10 日更新以及更新的版本 1.1 及更高版本白皮书。

重新启动后,确认 PPR 操作已成功执行。成功的 PPR 操作的示例类似于:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

除非 PPR 操作,否则不需要为这些可纠正内存错误更换 DIMM。失败的关键 PPR 消息的示例如下:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

新发布的白皮书(版本 1.0)介绍了 Dell PowerEdge 服务器与内存相关的可靠性、可用性和可维护性 (RAS) 功能,其中介绍了 PowerEdge 服务器上可用的各种 RAS 特性和功能 - 内存错误和 Dell EMC PowerEdge YX4X 服务器内存 RAS 功能

有关可纠正错误阈值事件的更多信息,请参阅第 14 代英特尔和第 15 代英特尔/AMD PowerEdge 服务器:DDR4 内存:管理可纠正的错误阈值事件

上次更新日期 2020 年 4 月 24 日

戴尔正在不断增强我们的“自我修复”功能。以下部分列出了与不同 BIOS 版本关联的更新和增强功能。

BIOS 2.1.x — 关于从 BIOS 2.1.6 及更高版本开始提供“自我修复”功能的初始文章发布,包括错误消息示例和建议的操作。

BIOS 2.4.x 和更新版本更改(2019 年 12 月)

  • MEM0702(已超出可纠正错误率)— 消息从严重更新为警告。更新了建议的操作以重新启动服务器,以允许进行“自我修复”— 例如,开机自检程序包修复。
    • 还需要安装 2019 年 12 月或更高版本的 iDRAC 以获取更新的消息
    • 建议措施:重新启动服务器以允许 PPR 运行
  • MEM9060 — 更新消息说明以指示“自我修复”已成功完成

BIOS 2.5.x 和更新版本更改(2020 年 2 月)

  • 添加了“Correctable Error Logging”BIOS 选项,以允许客户禁用与可纠正错误相关的所有生命周期/SEL 日志记录。所有“自我修复”功能将继续正常工作 — 例如,PPR 和内存重新安排仍会在下次重新启动期间(在配置内存过程的早期阶段)计划和运行。
  • 为 RDIMM 和 LRDIMM 添加 MEM08xx 错误,替换现有错误消息和操作。现有错误消息仍用于不支持“自我修复”功能的平台。
    • 要记录新消息, 需要 2020 年 2 月或更高版本的 iDRAC。
提醒:如果没有更新的 iDRAC,新的 BIOS 消息在 SEL 或 LifeCycle 日志中“未知”。
  • MEM0802 — 更换的 MEM0702 — 超过可纠正错误率
    • 建议措施:重新启动服务器以允许 PPR 运行。确认 PPR 成功 (MEM0802)
  • MEM0804 — 更换了 MEM9060,指示 PPR 成功。现在包括运行 PPR 的 DIMM 插槽位置
    • 建议措施:None.此事件表示发生了“自我修复”,不需要更换 DIMM。
  • MEM0805 — 更换了 UEFI0278,指示 PPR 失败
    • 建议措施:更换故障 DIMM

上次更新日期:2020 年 7 月 10 日

BIOS 2.7.x 和更新版本更改(2020 年 7 月发布的 BIOS — 针对 Web 发布于 7 月中旬推出)

  • MEM8000 (禁用可纠正的错误日志记录)— 从 BIOS ~2.0.x 开始,戴尔工程部门进行了 BIOS 更改,以提高可能影响性能的可纠正错误检测率。此更改导致 DIMM 故障分析结果无法证实的MEM8000事件增加。从 BIOS 2.7.x 开始,有两个与 MEM8000 相关的更改。首先,MEM8000事件的信号已被修改。第二个是 BIOS 为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
    • 建议措施:重新启动服务器以允许运行自我修复/PPR。确认 PPR 成功 (MEM0804)。
  • MEM0001 (不可纠正的错误)— 导致为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
    • 建议措施:如果 MEM0001 与操作系统无法恢复的关键页面有关,则无需执行任何操作 — 仍是导致重新启动的致命错误。如果 MEM0001 与操作系统可以恢复的非关键页面相关,则必须计划重新启动,以进行所有自我修复 (PPR)。确认 PPR 成功 (MEM0804)。

上次更新日期:2021 年 1 月 13 日

BIOS 2.8.2 及更高版本更改(2020 年 9 月周期 BIOS)

  • MEM9072 (内存巡检清理进程识别出不可纠正的错误 - 页面未使用或正在使用)- 导致为下一次重新启动计划自我修复 (PPR)。  iDRAC 消息尚未更新以反映新操作。
    • 建议措施:立即计划重新启动。延迟重新启动可能会导致页面被占用,从而导致 MEM0001 错误,从而可能导致重新启动。  内存自我修复 (PPR) 在重新启动期间运行。确认 PPR 成功 (MEM0804)。
提醒:最新版本的工程白皮书(版本 1.3 - 发布日期:2020 年 11 月 20 日)位于: https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
有关 Intel Xeon E 和 AMD EPYC 内容,请继续参考原始工程白皮书(版本 1.0):PowerEdge YX4X 服务器内存 RAS 1.0 版白皮书(dell.com)

在未来的 BIOS 更新中,我们还将评估更多的 RAS 功能增强。

提醒:有关特定错误代码消息的详细说明和建议的操作,请参阅以下链接:查找 (dell.com)。由于错误代码(如 MEM0001)适用于多代服务器和平台,因此建议的操作可能不是特定 BIOS 版本的最新操作。已添加的新错误代码(例如 MEM0802、MEM0804、MEM0805 等)仅适用于配备英特尔至强可扩展处理器(第一代或第二代)的服务器。

本文将在有新信息可用时更新。

另请参见:有关通过交换测试对内存进行故障处理的指导 — 通过交换测试

对 PowerEdge 系统上的内存错误进行故障处理下载和驱动程序:驱动程序与下载 |戴尔美国

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Products

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 13 Nov 2024
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.