症状
在 iDRAC 事件日志中有一个 13G 或 14G 节点报告 MEM 错误。
如需在不进行硬件更换或 CE 计划访问的情况下解决问题,应该怎么做。
什么是 DDR4“自我修复”?
当服务器发生内存错误时,这些 DDR4“自我修复”功能(BIOS 增强功能)会对建议的客户和技术支持操作产生什么影响?
运行 BIOS 2.1.x 和更高版本并配备 DDR4 的 PowerEdge 服务器有两个主要的与内存相关的“自我修复”BIOS 增强功能。当内存错误出现并被记录到 vCenter、VxFM、dial home 或 LifeCycle 日志中时,这些增强功能的确会改变建议的步骤/操作。
注:如果您的 DDR4 发生内存错误,并且您运行的是早于 2.1.x 的 BIOS,请将 BIOS 更新至最新版本,以获得内存自我修复增强功能。 然后重新启动您的节点以继续 (PPR)。请参阅“解决方案”部分以了解更多详细信息
注:当前的内存故障处理步骤包括将故障 DIMM 移至不同的插槽,以确认错误是与 DIMM 还是与 DIMM 插槽有关。
如果 13G 节点运行的是 bios 2.8.x 或更高版本,则第一个推荐步骤是重新引导/重新启动(不将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需更换任何 DIMM。
如果 14G 节点运行的是 bios 2.4.8 或更高版本,则第一个推荐步骤是重新引导/重新启动(不将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需更换任何 DIMM。
原因
在大多数情况下,ECC 内存错误是由随机阿尔法粒子撞击造成的。 阿尔法粒子是在每天发生的正常辐射的一部分。 有时,阿尔法粒子会从内存模块上撞击掉单个电子,损坏数据。 现代内存模块的设计目的是识别此事件并进行修复。 每个模块保留其修复内存错误次数的内部计数器。 在 BIOS 中设置阈值,当达到该阈值时,系统会提醒服务器内存事件数超过该阈值。
解决方案
将 Bios 升级到(13G:2.8.x 或更高版本)和(14G:2.1.x 或更高版本),为安装 DDR4 RAM 的服务器启用内存重新安排增强 — 在启动过程发生的内存重新安排为每个 DIMM/插槽优化信号计时/裕度以获得最好的访问效果。一个 DIMM 的计时特征可能因多种原因而发生变化:
示例包括但不限于:
1.服务器内存配置更改
2.BIOS 更改
3.不同的服务器或 DIMM 运行温度
4.DIMM 的一般使用期限
之前,当检测到 BIOS 更新或内存配置更改时,会在后续的启动中进行内存重新安排。从 BIOS 2.1.x (14G) 和 2.8.x (13G) 开始,为内存重新安排增加了可纠正和不可纠正内存错误的“触发器”:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
被记录在 VC events/ dial home/ SEL /LifeCycle 日志中的以上任何错误都将为下一次重新启动(热重启或冷重启)安排内存重新安排。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."
MEM0001 会导致服务器由于致命错误而重新启动。在该启动过程中,将自动进行内存重新安排。
上述任一可纠正或不可纠正(多位)内存错误导致的重新启动时的内存重新安排可能会通过优化每个 DIMM/插槽的信号计时/裕度来“自我修复”故障 DIMM。无需为这些错误更换 DIMM,除非启动过程中内存重新安装失败 (UEFI0106) 或这些错误继续。
2.开机自检程序包修复 (PPR) — 第二个“自我修复”内存增强功能。它通过禁用硬件层上的位置/地址并启用一个备用内存行来修复 DIMM 上的故障内存位置。可用的备用内存行的确切数量取决于 DRAM 设备和 DIMM 大小。
此前,此功能仅限于制造过程。与上文提到的内存重新安排增强功能相似,某些可纠正的内存错误会导致在下一次重新启动(热重启或冷重启)时对特定 DIMM 插槽运行 PPR。无论启动什么,BIOS 都会自动强制进行冷重启。由于在特定 DIMM 插槽上安排了 PPR 操作,因此在运行 PPR 操作之前,请勿更改 DIMM 插槽位置。错误示例如下:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
被记录在 VC events/ Dial home/SEL/LifeCycle 日志中的以上任何错误都将为下一次重新启动(热重启或冷重启)安排开机自检程序包修复。
重新启动后,确认 PPR 操作已成功执行。成功的 PPR 操作的示例如下:
Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
无需为这些可纠正内存错误更换 DIMM,除非重新启动后 PPR 操作失败。失败的 PPR 消息的示例如下:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
注:如果您遇到独立于任何对应的 MEM0005/MEM0701/MEM0702 消息出现(即非在类似的时间范围内)的消息 ID MEM8000(已为位置 DIMM_XX 上的内存设备禁用可纠正内存错误记录),不会导致为下一次重新启动计划 PPR。
独立的或带有对应 MCE(计算机检查异常)的消息 ID MEM8000 表示 DIMM 模块的一般故障,不是可纠正或不可纠正的存储桶最初溢出的情况。此类内存事件应被视为 DIMM 故障,并且应在客户方便时尽快更换所列的 DIMM 模块。
受影响的产品
VxFlex Product Family
产品
VxFlex Product Family