跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: PowerEdge DIMM ECC 수정 가능 메모리 오류

摘要: Dell 13G/14G 서버에서 iDRAC 이벤트 로그에 MEMXXXX 오류를 게시하고 있습니다. 이 이벤트로 인해 노드가 중지되거나 Machine Check Exception이 발생할 수 있습니다. 어떻게 대응해야 합니까?

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状



13G 또는 14G 노드가 iDRAC 이벤트 로그에 MEM 오류를 보고합니다.

하드웨어 교체 또는 CE 예약 방문 없이 문제를 해결하려면 무엇을 해야 합니까?

DDR4 "자동 복구"란 무엇입니까? 
서버에서 메모리 오류가 발생할 경우 이러한 DDR4 "자동 복구" 기능(BIOS 개선 사항)은 권장 고객 및 기술 지원 조치를 어떻게 변경합니까?

BIOS 버전 2.1.x 이상을 실행하는 DDR4를 사용하는 PowerEdge 서버에 대해 구현된 주요 메모리 관련 "자동 복구" BIOS 개선 사항은 두 개가 있습니다. 이러한 개선 사항은 메모리 오류가 발생하여 vCenter, VxFM, Dial Home 또는 LifeCycle 로그에 기록되는 경우 취해야 할 권장 단계/조치를 변경합니다.

참고: DDR4에서 메모리 오류가 발생하고 2.1.x 이하 BIOS 버전을 실행 중인 경우, 메모리 자동 복구 개선 사항을 포함하도록 BIOS를 최신 개정으로 업데이트하십시오.  그런 다음 노드를 재부팅하여 PPR을 계속 진행합니다. 자세한 내용은 Resolution Section을 참조하십시오.

참고: 현재 메모리 문제 해결 단계에는 오류가 있는 DIMM을 다른 슬롯으로 이동하여 오류가 DIMM을 따르는지 아니면 DIMM 슬롯에 남아 있는지 확인하는 것이 포함됩니다.

13G 노드에서 BIOS 2.8.x 이상을 실행하는 경우, 첫 번째 권장 단계는 재부팅/재시작입니다(DIMM을 다른 슬롯으로 이동하지 않음). 새로운 BIOS 개선 사항을 실행하여 DIMM을 교체할 필요 없이 DIMM 오류를 잠재적으로 해결(자동 복구)할 수 있습니다.

14G 노드에서 BIOS 버전 2.4.8 이상을 실행하는 경우, 첫 번째 권장 단계는 재부팅/재시작입니다(DIMM을 다른 슬롯으로 이동하지 않음). 새로운 BIOS 개선 사항을 실행하여 DIMM을 교체할 필요 없이 DIMM 오류를 잠재적으로 해결(자동 복구)할 수 있습니다.

原因

대부분의 경우 ECC 메모리 오류는 임의 알파 입자 타격으로 인해 발생합니다.  알파 입자는 매일 발생하는 정상 방사선의 일부입니다.  경우에 따라 알파 입자가 메모리 모듈에서 단일 전자를 떼어내 데이터가 손상될 수 있습니다.  최신 메모리 모듈은 이 이벤트를 인식하고 복구하도록 설계되었습니다.  각 모듈은 내부 카운터에 메모리 오류를 복구한 횟수를 저장합니다.  BIOS에서 임계값에 도달하면 메모리 이벤트 수가 해당 임계값을 초과했음을 서버에 알리는 임계값이 설정됩니다.

解决方案

BIOS를 13G의 경우 2.8.x 이상 및 14G의 경우 2.1.x 이상으로 업그레이드하여 DDR4 RAM이 설치된 서버에 대한 메모리 재학습 개선 사항을 활성화합니다. 부팅 중에 발생하는 메모리 재학습은 각 DIMM/슬롯에 대한 신호 타이밍/여백 설정을 최적화하여 최상의 액세스를 제공합니다. DIMM의 타이밍 특성은 다음과 같은 여러 가지 이유로 변경될 수 있습니다.

예에는 다음이 포함되지만 이에 국한되지는 않습니다.
1. 서버 메모리 구성의 변경 사항
2. BIOS 변경 사항
3. 서버 또는 DIMM의 다른 작동 온도
4. DIMM의 일반 수명

이전에는 BIOS 업데이트 또는 메모리 구성 변경 사항이 탐지될 경우 이후 부팅 중에 메모리 재학습이 발생할 수 있었습니다. BIOS 2.1.x(14G) 및 2.8.x(13G)부터 예약된 재학습에 대해 추가적으로 수정 가능하고 수정 불가능한 메모리 오류 "트리거"가 추가되었습니다.

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

VC 이벤트/Dial Home/SEL/LifeCycle 로그에 기록된 위의 오류 중 하나라도 발생하면 다음 재부팅(웜 또는 콜드)에 대해 메모리 재학습이 예약되고, 어떤 작업이 시작되었는지와 관계없이 BIOS에서 자동으로 콜드 재부팅을 강제로 수행합니다.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001은 치명적인 오류로 인해 서버를 재부팅합니다. 이로 인한 부팅 중에 메모리 재학습이 자동으로 수행됩니다.

이러한 수정 가능 또는 수정 불가(다중 비트) 메모리 오류로 인해 재부팅/재시작 시 발생하는 메모리 재학습은 각 DIMM/슬롯의 신호 타이밍/여백 설정 최적화를 통해 오류가 발생한 DIMM을 "자동 복구"할 수 있습니다. 부팅 중 메모리 재학습이 실패하거나(UEFI0106) 이와 동일한 오류가 계속 발생하지 않는 한 이러한 오류에 대한 DIMM 교체는 필요하지 않습니다.

2. PPR(Post Package Repair) - 두 번째 "자동 복구" 메모리 개선 사항으로, 하드웨어 레이어에서 위치/주소를 비활성화하여 DIMM에서 오류가 발생한 메모리 위치를 복구함으로써 예비 메모리 행을 대신 사용할 수 있게 합니다. 사용 가능한 예비 메모리 행의 정확한 수는 DRAM 디바이스 및 DIMM 크기에 따라 다릅니다.
이전에는 이 기능이 제조 프로세스로 제한되었습니다. 앞에서 설명한 메모리 재학습 개선 사항과 마찬가지로, 다음 재부팅(웜 또는 콜드)을 위해 특정 DIMM 슬롯에서 PPR이 예약되는 수정 가능한 특정 메모리 오류가 있습니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다. PPR 작업은 특정 DIMM 슬롯에 예약되므로 PPR 작업이 실행될 때까지 DIMM 슬롯 위치를 변경하지 마십시오. 오류의 예는 다음과 같습니다.

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

VC 이벤트/Dial Home/SEL/LifeCycle 로그에 기록되는 위의 오류 중 하나라도 발생하면 다음 재부팅(웜 또는 콜드)에 대해 Post Package Repair가 예약됩니다.

재부팅 후 PPR 작업이 성공적으로 수행되었는지 확인합니다. 성공적인 PPR 작업의 예는 다음과 유사합니다.

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
이러한 수정 가능한 메모리 오류에 대한 DIMM 교체는 재부팅 후 PPR 작업이 실패하지 않는 한 필요하지 않습니다. 실패하는 PPR 메시지의 예는 다음과 같습니다.
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

참고: 해당하는 MEM0005/MEM0701/MEM0702 메시지와 별도로 나타나는 메시지 ID MEM8000(DIMM_XX 위치에 있는 메모리 디바이스에 대해 수정 가능한 메모리 오류 로깅이 비활성화됨)이 발생하는 경우(예: 유사한 시간대 아님), 다음 재부팅에 대해 PPR이 예약되지 않습니다.

해당하는 MCE(Machine Check Exception)과 별도로 또는 함께 나타나는 메시지 ID MEM8000은 DIMM 모듈의 일반적인 오류를 나타내며, 수정 가능하거나 수정 불가능한 버킷이 처음 오버플로되는 상황이 아닙니다. 이 유형의 메모리 이벤트는 DIMM 오류로 취급되어야 하며, 고객은 나열된 DIMM 모듈을 가장 빨리 교체해야 합니다.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。