Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Créez et accédez à une liste de vos produits

인텔 제온 스케일러블 프로세서가 탑재된 Dell PowerEdge 서버에서 DDR4 자동 복구란?

Résumé: DDR4를 사용하는 PowerEdge 서버의 수정 가능한 메모리 오류와 수정 불가능한 메모리 오류 및 문제 해결 단계 변경 사항

Cet article concerne Cet article ne concerne pas Cet article n’est associé à aucun produit spécifique. Toutes les versions du produit ne sont pas identifiées dans cet article.

Symptômes

BIOS 버전이 2.1.x 이상인 인텔 제온 스케일러블 프로세서(1세대 또는 2세대)가 탑재된 Dell PowerEdge 서버의 DDR4 "자동 복구"란 무엇입니까?

이러한 DDR4 "자동 복구" 기능(BIOS 기능 향상)은 서버에서 메모리 오류가 발생했을 때 권장되는 고객 및 기술 지원 조치를 어떻게 변경합니까?

최신 BIOS 버전의 "자동 복구" 개선 사항은 무엇입니까?

Cause

Dell PowerEdge BIOS에서는 메모리 이벤트 메시징, 오류 처리 및 서버 재부팅 시 발생하는 "자동 복구"를 개선하기 위한 개선 및 개선 사항이 계속 진행되고 있습니다. 따라서 오류 이벤트를 기록한 DDR4 메모리 DIMM을 교체하기 위해 예약된 유지 보수 기간이나 현장 방문이 필요하지 않습니다.

Résolution

DDR4가 BIOS 버전 2.1.x 이상을 실행하는 PowerEdge 서버에 구현된 주요 메모리 관련 "자동 복구" BIOS 개선 사항이 두 가지 있습니다. 이러한 개선 사항은 메모리 이벤트가 발생하고 수명주기 로그에 기록되는 경우 수행할 권장 단계 또는 작업을 변경합니다.

참고:
  • BIOS 2.0 이전 버전의 DDR4에서 메모리 오류가 발생하는 경우, BIOS를 다양한 메모리 자가 복구 기능과 지속적인 개선 노력을 포함하는 최신 개정 버전으로 업데이트하십시오. 고객이 최신 자동 복구 기능 개선 사항을 활용할 수 있도록 항상 최신 BIOS 릴리스(및 iDRAC 펌웨어)로 업데이트할 것을 권장합니다.
  • 이전의 메모리 문제 해결 단계에는 오류가 DIMM을 따르는지 아니면 DIMM 슬롯에 남아 있는지 확인하기 위해 오류가 발생한 DIMM을 다른 슬롯으로 이동하는 작업이 포함되었습니다. BIOS 2.1.x 이상에서 첫 번째 권장 단계는 DIMM을 다른 슬롯으로 이동하지 않고 재시작하는 것입니다. 이를 통해 새로운 BIOS 개선 사항을 실행하여 DIMM을 교체할 필요 없이 DIMM 오류를 잠재적으로 해결(자동 복구)할 수 있습니다.

1. 메모리 재학습 개선 사항

부팅 중(메모리 구성 단계 초기)에 발생하는 메모리 재학습은 최상의 액세스를 위해 각 DIMM/슬롯의 신호 타이밍과 여백 설정을 최적화합니다. DIMM의 메모리 신호 타이밍 및 여백 설정 특성은 여러 가지 이유로 인해 시간이 지나면서 변경될 수 있습니다.

  • 서버 메모리 구성의 변경
  • BIOS 변경(Memory Reference Code - MRC)
  • 서버 또는 DIMM의 다른 작동 온도
  • DIMM의 일반 수명

이전에는 BIOS 업데이트 또는 메모리 구성 변경 사항이 감지될 경우 이후 부팅 중에 메모리 재학습이 발생할 수 있었습니다. BIOS 2.1.x부터 예약된 재학습에 대해 수정 가능 및 수정 불가 메모리 오류 "트리거"가 추가되었습니다.

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

SEL/수명주기 로그에 이러한 오류가 기록되면 다음 재부팅(웜 또는 콜드) 시 메모리 재학습이 예약됩니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

이 다중 비트 오류는 운영 체제에서 해당 오류를 처리할 수 없는 경우 치명적인 오류로 인해 서버를 재부팅하게 합니다. 이로 인한 부팅 중에 메모리 재학습이 자동으로 수행됩니다. 운영 체제가 처리할 수 있는 중요하지 않은 메모리 위치에서 다중 비트 오류가 발생하면 재부팅을 예약해야 합니다.

POST 중 메모리 재학습은 신호 타이밍 및 여백 설정을 최적화하여 오류가 발생한 DIMM 및 관련 슬롯을 "자가 복구"할 수 있습니다. 부팅 중 메모리 재학습이 실패하거나(UEFI0106) 이와 동일한 오류가 계속 발생하지 않는 한 이러한 오류에 대한 DIMM 교체는 필요하지 않습니다.
 

2. PPR(Post Package Repair)

두 번째 "자가 치유" 기억력 향상은 PPR입니다. PPR은 하드웨어 레이어에서 위치 또는 주소를 비활성화하여 오류가 발생한 메모리 위치를 복구함으로써 예비 메모리 행을 대신 사용할 수 있도록 합니다. 사용 가능한 예비 메모리 행의 정확한 개수는 DRAM 디바이스 및 DIMM 크기에 따라 다릅니다.

이전에는 이 기능이 제조 프로세스로 제한되었습니다. 앞에서 설명한 메모리 재학습 개선 사항과 마찬가지로, 다음 재부팅(웜 또는 콜드)을 위해 특정 DIMM 슬롯에서 PPR이 예약되는 수정 가능한 특정 메모리 오류가 있습니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다. PPR 작업은 특정 DIMM 슬롯에 예약되므로 PPR 작업이 실행될 때까지 DIMM 슬롯 위치를 변경하지 마십시오. 오류의 예는 다음과 같습니다.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

로그에서 이러한 이벤트가 발생하면 메모리 구성 단계 초기에 다음 재부팅(웜 또는 콜드)을 위한 PPR이 예약됩니다.

참고: 동일한 DIMM 위치에 해당하는 MEM0005/MEM0701/MEM0702가 없는 Message ID MEM8000(Correctable memory error logging disabled for a memory device at location DIMM_XX)가 있으면 다음 재부팅을 위한 PPR이 예약되지 않습니다.

2020년 7월 10일 업데이트에서 MEM8000 이벤트에 대한 변경 사항 및 업데이트된 버전 1.1 이상 백서를 참조하세요.

재부팅 후 PPR 작업이 성공적으로 수행되었는지 확인합니다. 성공적인 PPR 작업의 예는 다음과 유사합니다.

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

PPR 작업이 작동하지 않는 한 이러한 수정 가능한 메모리 오류에 대한 DIMM 교체는 필요하지 않습니다. 오류가 발생한 중요 PPR 메시지의 예는 다음과 같습니다.
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Dell PowerEdge 서버 메모리 관련 RAS(Reliability, Availability, Serviceability) 기능을 설명하는 새로 게시된 백서(버전 1.0)를 이제 사용할 수 있습니다. 이 백서에서는 PowerEdge 서버에서 사용할 수 있는 다양한 RAS 기능과 메모리 오류 및 Dell EMC PowerEdge YX4X 서버 메모리 RAS 기능을 설명합니다.

수정 가능한 오류 임계값 이벤트에 대한 자세한 내용은 14G 인텔 및 15G 인텔/AMD PowerEdge 서버: DDR4 메모리: 수정 가능한 오류 임계값 이벤트 관리를 참조하십시오.

2020년 4월 24일 업데이트

Dell은 "자동 복구" 기능을 지속적으로 개선하고 있습니다. 다음 섹션에는 다양한 BIOS 버전과 관련된 업데이트 및 개선 사항이 나열되어 있습니다.

BIOS 2.1.x - 오류 메시지 예시 및 권장 조치를 포함하여 BIOS 2.1.6 이상부터 사용할 수 있는 "자동 복구" 기능의 초기 문서 게시.

BIOS 2.4.x 이상 변경 사항(2019년 12월)

  • MEM0702 (Correctable error rate exceeded…) - 메시지가 심각에서 경고로 업데이트되었습니다. "자동 복구"가 진행되도록 서버를 재부팅하기 위한 권장 조치가 업데이트되었습니다(예: PPR(Post Package Repair)).
    • 업데이트된 메시지를 받으려면 2019년 12월 버전 이상의 iDRAC도 설치해야 합니다.
    • 권장 조치: PPR을 실행하려면 서버를 재부팅하십시오.
  • MEM9060 - "자동 복구"가 성공적으로 완료되었다는 메시지 설명이 업데이트되었습니다.

BIOS 2.5.x 이상 변경 사항(2020년 2월)

  • 고객이 수정 가능한 오류와 관련된 모든 수명주기/SEL 로깅을 비활성화할 수 있도록 "Correctable Error Logging" BIOS 옵션이 추가되었습니다. 모든 "자동 복구" 기능은 계속 작동합니다. 예를 들어 PPR 및 메모리 재학습은 여전히 예약되어 다음 재부팅 중에(메모리 구성 프로세스 초기) 실행됩니다.
  • RDIMM 및 LRDIMM에 대한 MEM08xx 오류가 추가되어 기존 오류 메시지 및 작업이 대체되었습니다. "자동 복구" 기능을 지원하지 않는 플랫폼에는 기존 오류 메시지가 계속 사용됩니다.
    • 새 메시지를 기록하려면 2020년 2월 이상의 iDRAC가 필요합니다 .
참고: 업데이트된 iDRAC가 없으면 SEL 또는 수명주기 로그에 새 BIOS 메시지가 "unknown"으로 표시됩니다.
  • MEM0802 - 교체된 MEM0702 - 수정 가능한 오류율 초과
    • 권장 조치: PPR을 실행하려면 서버를 재부팅하십시오. PPR이 성공했는지 확인합니다(MEM0802).
  • MEM0804 - PPR이 성공했음을 나타내는 MEM9060을 교체했습니다. 이제 PPR을 실행한 DIMM 슬롯 위치가 포함됩니다.
    • 권장 조치: 없음 이 이벤트는 "자동 복구"가 발생했으며 DIMM을 교체할 필요가 없음을 나타냅니다.
  • MEM0805 - PPR 실패를 나타내는 UEFI0278을 교체했습니다.
    • 권장 조치: 오류가 발생한 DIMM 교체

2020년 7월 10일 업데이트

BIOS 2.7.x 이상 변경 사항(2020년 7월 블록 BIOS - 7월 중순 웹 게시 예정)

  • MEM8000 (수정 가능한 오류 로깅 비활성화) - BIOS ~2.0.x부터 Dell 엔지니어링은 성능에 영향을 줄 수 있는 수정 가능한 오류 감지 속도를 높이기 위해 BIOS를 변경했습니다. 이러한 변화로 인해 DIMM 장애 분석 결과로 입증되지 않은 MEM8000 이벤트가 증가했습니다. BIOS 2.7.x부터 MEM8000과 관련된 두 가지 변경 사항이 있습니다. 첫 번째는 MEM8000 이벤트의 신호가 수정되었다는 것입니다. 둘째, BIOS가 다음 재부팅을 위한 자동 복구(PPR)를 예약합니다. iDRAC 메시지는 새 작업을 반영하도록 아직 업데이트되지 않았습니다.
    • 권장 조치: 자동 복구/PPR을 실행하려면 서버를 재부팅하십시오. PPR이 성공했는지 확인합니다(MEM0804).
  • MEM0001 (수정할 수 없는 오류) - 다음 재부팅을 위해 자동 복구(PPR)를 예약합니다. iDRAC 메시지는 새 작업을 반영하도록 아직 업데이트되지 않았습니다.
    • 권장 조치: 운영 체제가 복구할 수 없는 중요 페이지와 MEM0001이 연결되어 있는 경우 필요 없음 - 여전히 심각한 오류로 인해 재부팅이 발생합니다. MEM0001이 운영 시스템에서 복구할 수 있는 중요하지 않은 페이지와 연결되어 있는 경우 자동 복구(PPR)가 모두 실행되도록 재부팅을 예약해야 합니다. PPR이 성공했는지 확인합니다(MEM0804).

2021년 1월 13일 업데이트

BIOS 2.8.2 이상 변경 사항(2020년 9월 블록 BIOS)

  • MEM9072 (메모리 패트롤 스크럽 프로세스로 식별되는 수정할 수 없는 오류 - 페이지가 사용 중이거나 사용 중이 아님) - 다음 재부팅을 위한 자동 복구(PPR)를 예약합니다.  iDRAC 메시지는 아직 새 작업을 반영하도록 업데이트되지 않았습니다.
    • 권장 조치: 곧 재부팅을 예약합니다. 재부팅을 지연하면 페이지 소모로 인해 MEM0001 오류가 발생하여 재부팅이 발생할 수 있습니다.  재부팅하는 동안 메모리 자동 복구(PPR)가 실행됩니다. PPR이 성공했는지 확인합니다(MEM0804).
참고: 최신 버전의 엔지니어링 백서(버전 1.3 - 2020년 11월 20일 발행)는 다음에서 확인할 수 있습니다.  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
인텔 제온 E 및 AMD EPYC 콘텐츠의 경우 다음 문서에서 제공하는 원본 엔지니어링 백서(버전 1.0)를 계속 참조하십시오. PowerEdge YX4X 서버 메모리 RAS 백서 v1.0(dell.com)

향후 BIOS 업데이트에 포함할 추가 RAS 기능 개선 사항을 평가하고 있습니다.

참고: 특정 오류 코드 메시지에 대한 자세한 설명 및 권장 조치는 다음 링크를 참조하십시오. 조회(dell.com) 오류 코드(예: MEM0001)는 여러 세대의 서버 및 플랫폼에 적용되므로 권장 조치는 특정 BIOS 버전에 대해 최신 상태가 아닐 수 있습니다. 추가된 새 오류 코드(예: MEM0802, MEM0804, MEM0805)는 인텔 제온 스케일러블 프로세서(1세대 또는 2세대)가 탑재된 서버에만 적용됩니다.

이 문서는 새로운 정보를 사용할 수 있게 되면 업데이트됩니다.

참조 항목: 교체 테스트를 통한 메모리 문제 해결에 대한 지침 - 교체 테스트를

통해 PowerEdge 시스템의 메모리 오류 문제 해결다운로드 및 드라이버: 드라이버 및 다운로드 | Dell 미국

Produits concernés

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Produits

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Propriétés de l’article
Numéro d’article: 000053203
Type d’article: Solution
Dernière modification: 19 avr. 2024
Version:  15
Trouvez des réponses à vos questions auprès d’autres utilisateurs Dell
Services de support
Vérifiez si votre appareil est couvert par les services de support.