Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Hvad er DDR4-selvreparation på Dell PowerEdge-servere med Intel Xeon Scalable-processorer

Summary: Hukommelsesfejl, der kan rettes og ikke kan rettes, på PowerEdge-server med DDR4 samt ændringer i fejlfindingstrin

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Hvad er DDR4 "selvreparerende" på Dell PowerEdge-servere med skalerbare Intel Xeon-processorer (første eller anden generation) med BIOS-version 2.1.x eller nyere?

Hvordan ændrer disse DDR4 "selvreparerende" funktioner (BIOS-forbedringer) anbefalede kunde- og tekniske supporthandlinger, når der opstår hukommelsesfejl på en server?

Hvad er de "selvhelbredende" forbedringer i de nyere BIOS-versioner?

Cause

Der er løbende forbedringer og forbedringer af Dell PowerEdge BIOS for at forbedre meddelelser om hukommelseshændelser, fejlhåndtering og "selvreparation", der opstår ved en genstart af serveren. Dette forhindrer behovet for et planlagt vedligeholdelsesvindue eller onsite-tilstedeværelse for at udskifte en DIMM-hukommelse med DDR4-hukommelse, der loggede fejlhændelser.

Resolution

Der er to primære hukommelsesrelaterede "selvreparerende" BIOS-forbedringer, der blev implementeret for PowerEdge-servere med DDR4, der kører BIOS-version 2.1.x og nyere. Disse forbedringer ændrer de anbefalede trin eller handlinger, der skal udføres, hvis der opstår hukommelseshændelser, og logføres i livscyklusloggen.

Bemærk:
  • Hvis du støder på hukommelsesfejl med DDR4 på BIOS 2.0 eller tidligere, skal du opdatere BIOS til den nyeste revision, der indeholder mange funktioner til selvreparation af hukommelsen og løbende forbedringer. Vi opfordrer altid kunderne til at opdatere til den nyeste tilgængelige BIOS-version (og iDRAC-firmware), så de kan drage fordel af de nyeste selvreparerende forbedringer.
  • Tidligere trin til fejlfinding af hukommelse omfattede flytning af defekte DIMM-moduler til en anden plads for at bekræfte, om fejlene følger DIMM-modulet eller forbliver i DIMM-stikket. Med BIOS 2.1.x eller nyere er det første anbefalede trin at genstarte (uden at flytte DIMM-moduler til en anden plads). På den måde kan de nye BIOS-forbedringer køre, hvilket potentielt kan løse (selvhelbrede) DIMM-fejlene uden at planlægge DIMM-udskiftninger.

1. Forbedringer af genoptræning af hukommelse

Genoptræningen af hukommelsen, som finder sted under opstart (tidligt i trinnene til konfiguration af hukommelse), optimerer signaltimingen og margenerne for hvert DIMM-modul/slot for at opnå den bedste adgang. Hukommelsessignaltiming og margenegenskaber for et DIMM-modul kan ændre sig over tid af flere forskellige årsager:

  • Ændringer i serverens hukommelseskonfiguration
  • BIOS-ændringer (hukommelsesreferencekode – MRC)
  • Forskellige driftstemperaturer for serveren eller DIMM-modulet
  • DIMM-modulets generelle alder

Tidligere resulterede registrerede BIOS-opdateringer eller hukommelseskonfigurationsændringer i en omskoling af hukommelsen, som sker under den efterfølgende opstart. Fra og med BIOS 2.1.x blev ekstra "udløsere" af hukommelsesfejl, som kan og ikke kan rettes, tilføjet med henblik på planlagt omskoling:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Enhver af disse fejl, der logges i SEL/LifeCycle-logfilerne, resulterer i, at der planlægges genoptræning af hukommelsen til næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Denne multi-bit-fejl kan resultere i, at serveren genstarter på grund af en fatal fejl, hvis operativsystemet ikke er i stand til at håndtere denne fejl. Genoptræning af hukommelsen finder automatisk sted under denne opstart. Hvis multi-bit-fejlen opstår på en ikke-kritisk hukommelsesplacering, som operativsystemet kan håndtere, skal en genstart planlægges.

Genoptræning af hukommelsen under POST kan "selvhelbrede" det defekte DIMM-modul og det tilhørende slot ved at optimere signaltimingen og margenerne. En udskiftning af DIMM-modul er ikke nødvendig i forbindelse med disse fejl, medmindre omskolingen af hukommelsen mislykkes (UEFI0106) under opstart, eller hvis de samme fejl fortsat opstår.
 

2. PPR (Post Package Repair)

Den anden "selvhelbredende" hukommelsesforbedring er PPR. PPR reparerer en defekt hukommelsesplacering ved at deaktivere placeringen eller adressen på hardwarelaget, så en ekstra hukommelsesrække kan bruges i stedet. Det nøjagtige antal reservehukommelsesrækker afhænger af DRAM-enhedens og DIMM-modulets størrelse.

Tidligere var denne funktionalitet begrænset til produktionsprocessen. Som med de tidligere nævnte forbedringer af genoptræningen af hukommelsen er der visse hukommelsesfejl, der kan rettes, der medfører, at PPR planlægges på en bestemt DIMM-slot til næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes. Da PPR-handlingen planlægges på et bestemt DIMM-modulstik, MÅ DU IKKE ændre DIMM-modulstikplaceringer, før PPR-handlingen er blevet kørt. Eksempler på fejl er:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Enhver af disse hændelser i logfilerne vil resultere i, at PPR planlægges til den næste genstart (varm eller kold) tidligt i fasen Konfiguration af hukommelse.

Bemærk: Et meddelelses-id MEM8000 (logføring af hukommelsesfejl, der kan rettes deaktiveret for en hukommelsesenhed på placering DIMM_XX.) uden en tilsvarende MEM0005/MEM0701/MEM0702 på den samme DIMM-placering medfører ikke, at der planlægges en PPR ved næste genstart.

Se opdateringen fra 10. juli 2020 for at se ændringer til MEM8000-hændelsen og den opdaterede version 1.1 og nyere hvidbog.

Efter genstart skal du verificere, at PPR-handlingen er blevet gennemført. Et eksempel på en vellykket PPR-operation ligner:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

En DIMM-udskiftning af disse hukommelsesfejl, der kan rettes, er ikke nødvendig, medmindre PPR-handlingen. Et eksempel på en mislykket kritisk PPR-meddelelse er:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Nu er der en nyligt offentliggjort hvidbog (version 1.0), der beskriver Dell PowerEdge-serverens hukommelsesrelaterede RAS-funktioner (Reliability, Availability, and Serviceability), som beskriver de forskellige RAS-funktioner og -egenskaber, der er tilgængelige på PowerEdge-serverne – Hukommelsesfejl og Dell EMC PowerEdge YX4X-serverhukommelsens RAS-funktioner.

Du kan finde flere oplysninger om fejltærskelhændelser, der kan rettes, i 14G Intel- og 15G Intel/AMD PowerEdge-servere: DDR4-hukommelse: administration af tærskelhændelser, der kan rettes fejl.

Opdateret 24. april 2020

Dell fortsætter med at forbedre vores "selvhelbredende" funktioner. Følgende afsnit indeholder en liste over opdateringer og forbedringer, der er tilknyttet de forskellige BIOS-versioner.

BIOS 2.1.x – Indledende artikeludgivelse af de tilgængelige "selvhelbredende" funktioner startende med BIOS 2.1.6 og højere, herunder eksempler på fejlmeddelelser og anbefalede handlinger.

BIOS 2.4.x og nyere ændringer (december 2019)

  • MEM0702 (Fejlprocenten kan rettes overskredet...) – Meddelelse opdateret fra en kritisk til en advarsel. Med anbefalede handlinger opdateret for at genstarte serveren for at tillade "selvreparation" at forekomme - for eksempel efter pakkereparation.
    • December 2019 eller nyere iDRAC skal også installeres for at få den opdaterede meddelelse
    • Anbefalet handling: Genstart serveren, så PPR kan køre
  • MEM9060 – Meddelelsesbeskrivelsen er opdateret for at angive, at "selvhelbredelse" er fuldført

BIOS 2.5.x og nyere ændringer (februar 2020)

  • BIOS-indstillingen "Logføring af korrigerbare fejl" blev tilføjet for at give kunderne mulighed for at deaktivere al livscyklus-/SEL-logning relateret til fejl, der kan rettes. Alle funktionerne til "selvreparation" fungerer fortsat – PPR og genoptræning af hukommelsen er f.eks. stadig planlagt og kører under næste genstart (tidligt i processen Konfiguration af hukommelse).
  • Tilføjelse af MEM08xx-fejl til RDIMM'er og LRDIMM'er, der erstatter eksisterende fejlmeddelelser og handlinger. Eksisterende fejlmeddelelser bruges stadig til platforme, der ikke understøtter de "selvhelbredende" funktioner.
    • Der kræves iDRAC fra februar 2020 eller nyere, for at de nye meddelelser kan logføres.
Bemærk: Uden den opdaterede iDRAC er nye BIOS-meddelelser "ukendte" i SEL- eller livscykluslogfilerne.
  • MEM0802 - Udskiftet MEM0702 - korrigerbar fejlprocent overskredet
    • Anbefalet handling: Genstart serveren, så PPR kan køre. Bekræft, at PPR lykkedes (MEM0802)
  • MEM0804 – Erstattede MEM9060, der angiver, at PPR var vellykket. Indeholder nu placering af DIMM-slot, der kørte PPR
    • Anbefalet handling: Ingen. Denne hændelse angiver, at der er sket "selvhelbredelse", og der er ikke behov for DIMM-udskiftning.
  • MEM0805 – Erstattet UEFI0278 angiver, at PPR mislykkedes
    • Anbefalet handling: Udskift fejlbehæftet DIMM-modul

Opdateret 10. juli 2020

BIOS 2.7.x og nyere ændringer (juli 2020-blok BIOS – planlagt medio juli til webindlæg)

  • MEM8000 (logføring af korrigerbare fejl deaktiveret) – Dell Engineering startede med BIOS ~2.0.x og foretog en BIOS-ændring for at forbedre hastigheden af fejlregistrering, der kan rettes, hvilket kan påvirke ydeevnen. Denne ændring resulterede i en stigning i MEM8000 hændelser, der ikke var underbygget af resultater fra analyse af DIMM-fejl. Fra og med BIOS 2.7.x er der to ændringer, der er relateret til MEM8000. Den første er, at signaleringen af den MEM8000 begivenhed er blevet ændret. Derefter planlægger BIOS selvreparation (PPR) til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
    • Anbefalet handling: Genstart serveren for at tillade selvreparation/PPR at køre. Bekræft, at PPR lykkedes (MEM0804).
  • MEM0001 (fejl, der ikke kan rettes) – Resulterer i selvreparation (PPR), der skal planlægges til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
    • Anbefalet handling: Ingen nødvendig, hvis MEM0001 er knyttet til en kritisk side, som operativsystemet ikke kan gendanne - Er stadig en alvorlig fejl, der resulterer i en genstart. Hvis MEM0001 er knyttet til en ikke-kritisk side, som operativsystemet kan gendanne fra, skal der planlægges en genstart til al selvreparation (PPR). Bekræft, at PPR lykkedes (MEM0804).

OPDATERET 13. januar 2021

BIOS 2.8.2 og nyere ændringer (september 2020-blok BIOS)

  • MEM9072 (Uoprettelig fejl, der identificeres af hukommelsespatruljeskrubbeprocessen, forbruges ikke eller er i brug) – Resulterer i selvreparation (PPR), der skal planlægges til næste genstart.  iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
    • Anbefalet handling: Planlæg en genstart snart. Forsinkelse af genstart kan resultere i, at siden forbruges, hvilket resulterer i en MEM0001-fejl, der kan resultere i en genstart.  Hukommelsens selvreparation (PPR) kører under denne genstart. Bekræft, at PPR lykkedes (MEM0804).
Bemærk: Den seneste version af hvidbogen Engineering (version 1.3 – udgivelsesdato 20. november 2020) findes på:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFor Intel Xeon E- og AMD EPYC-indhold henvises der fortsat til den originale hvidbog om udvikling (version 1.0), som findes på: PowerEdge YX4X Server Memory RAS-hvidbog v1.0 (dell.com)

Der er yderligere RAS-funktionsforbedringer, der vurderes for medtagelse i fremtidige BIOS-opdateringer.

Bemærk: Du kan finde en detaljeret beskrivelse og anbefalede handlinger til specifikke fejlmeddelelser i følgende link: Slå op (dell.com). Da fejlkoder (f.eks. MEM0001) gælder for flere generationer af servere og platforme, er de anbefalede handlinger muligvis ikke aktuelle for den pågældende BIOS-version. De nye fejlkoder, der er tilføjet (f.eks. MEM0802, MEM0804, MEM0805 osv.), gælder kun for servere med skalerbare Intel Xeon-processorer (første eller anden generation) .

Denne artikel opdateres, efterhånden som nye oplysninger bliver tilgængelige.

Se også: Vejledning i fejlfinding af hukommelse ved swap-test – Fejlfinding af hukommelsesfejl på PowerEdge-systemer ved swap-test

Downloads og drivere: Drivere og downloads | Dell USA

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Products

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 13 Nov 2024
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.