Gå vidare till huvudinnehållet
  • Lägg beställningar snabbt och enkelt
  • Visa beställningar och kontrollera leveransstatus
  • Skapa och kom åt en lista över dina produkter

Wat is DDR4-zelfherstel op Dell PowerEdge servers met schaalbare Intel Xeon processors?

Sammanfattning: Corrigeerbare en niet-corrigeerbare geheugenfouten op PowerEdge Server met DDR4 en wijzigingen in stappen voor probleemoplossing

Den här artikeln gäller för Den här artikeln gäller inte för Den här artikeln är inte kopplad till någon specifik produkt. Alla produktversioner identifieras inte i den här artikeln.

Symptom

Wat is DDR4 "zelfherstel" op Dell PowerEdge servers met Intel Xeon schaalbare processors (eerste of tweede generatie) met BIOS-versie 2.1.x of hoger?

Hoe veranderen deze DDR4 "zelfherstel"-mogelijkheden (BIOS-verbeteringen) de aanbevolen acties voor klantenservice en technische support bij geheugenfouten op een server?

Wat zijn de verbeteringen voor zelfherstel in de nieuwere BIOS-versies?

Orsak

Er zijn doorlopende verbeteringen en uitbreidingen aan het Dell PowerEdge BIOS om geheugengebeurtenisberichten, foutafhandeling en "zelfherstel" te verbeteren die optreden bij het opnieuw opstarten van de server. Dit voorkomt de noodzaak van een gepland onderhoudsvenster of aanwezigheid op locatie om een DDR4-geheugen-DIMM te vervangen die foutgebeurtenissen registreerde.

Upplösning

Er zijn twee belangrijke geheugengerelateerde 'zelfherstellende' BIOS-verbeteringen die zijn geïmplementeerd voor PowerEdge servers met DDR4 met BIOS-versie 2.1.x en hoger. Deze verbeteringen wijzigen de aanbevolen stappen of acties die moeten worden uitgevoerd als geheugenproblemen optreden en worden vastgelegd in het LifeCycle-logboek.

Opmerking:
  • Als u geheugenfouten tegenkomt met DDR4 op BIOS 2.0 of eerder, werkt u het BIOS bij naar de nieuwste revisie die veel zelfherstelmogelijkheden en doorlopende verbeteringen in het geheugen bevat. We raden klanten altijd aan om bij te werken naar de nieuwste beschikbare BIOS-release (en iDRAC-firmware), zodat ze kunnen profiteren van de nieuwste verbeteringen voor zelfherstel.
  • Eerdere stappen voor probleemoplossing voor het geheugen waren onder andere het verplaatsen van defecte DIMM's naar een ander slot om te bevestigen of de fouten de DIMM volgen of bij de DIMM-sleuf blijven. Met BIOS 2.1.x of hoger is de eerste aanbevolen stap opnieuw opstarten (zonder DIMM's naar een andere slot te verplaatsen). Hierdoor kunnen de nieuwe BIOS-verbeteringen worden uitgevoerd, waarbij de DIMM-fouten mogelijk worden opgelost (zelfherstellend) zonder DIMM-vervangingen te plannen.

1. Verbeteringen in hertraining van het geheugen

De hertraining van het geheugen tijdens het opstarten (vroeg in de stappen voor geheugenconfiguratie) optimaliseert de timing en margebepaling van het signaal voor elke DIMM/slot voor de beste toegang. De timing en margekarakteristieken van geheugensignalen van een DIMM kunnen in de loop van de tijd veranderen om verschillende redenen:

  • Wijzigingen in de geheugenconfiguratie van de server
  • BIOS-wijzigingen (Memory Reference Code - MRC)
  • Verschillende bedrijfstemperaturen van de server of DIMM
  • De algemene leeftijd van de DIMM

Voorheen zouden gedetecteerde BIOS-updates of wijzigingen in de geheugenconfiguratie hebben geresulteerd in geheugenvernieuwing tijdens de volgende opstartprocedure. Vanaf BIOS 2.1.x zijn extra triggers toegevoegd voor geplande vernieuwing voor herstelbare en onherstelbare geheugenfouten:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Als een van deze fouten wordt geregistreerd in de SEL/LifeCycle-logboeken, wordt hertraining van het geheugen gepland voor de volgende keer opstarten (warm of koud). Het BIOS dwingt automatisch een koude herstart af, ongeacht welk type herstart wordt uitgevoerd.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Deze multi-bit-fout kan ertoe leiden dat de server opnieuw wordt opgestart als gevolg van een fatale fout als het besturingssysteem deze fout niet kan verwerken. Tijdens het opstarten wordt het geheugen automatisch opnieuw getraind. Als de multi-bitfout optreedt op een niet-kritieke geheugenlocatie die door dat besturingssysteem kan worden verwerkt, moet opnieuw opstarten worden gepland.

Hertraining van het geheugen tijdens POST kan de defecte DIMM en het bijbehorende slot "zelfherstellen" door de timing en margebepaling van het signaal te optimaliseren. Het vervangen van DIMM is voor deze fouten niet nodig, tenzij de vernieuwing van het geheugen tijdens het opstarten niet werkt (UEFI0106) of als dezelfde fouten zich blijven voordoen.
 

2. PPR (Post Package Repair)

De tweede 'zelfherstellende' geheugenverbetering is PPR. PPR repareert een defecte geheugenlocatie door de locatie of het adres in de hardwarelaag uit te schakelen, waardoor in plaats daarvan een reservegeheugenrij kan worden gebruikt. Het exacte aantal reservegeheugen-rijen dat beschikbaar is, is afhankelijk van het DRAM-apparaat en de DIMM-grootte.

Voorheen was deze functionaliteit beperkt tot het productieproces. Net als bij de eerder genoemde verbeteringen voor hertraining van het geheugen, zijn er bepaalde corrigeerbare geheugenfouten die ertoe leiden dat PPR wordt gepland op een specifiek DIMM-slot voor de volgende keer opstarten (warm of koud). Het BIOS dwingt automatisch een koude herstart af, ongeacht welk type herstart wordt uitgevoerd. Omdat de PPR-bewerking is gepland op een specifieke DIMM-sleuf, moet u de locaties van de DIMM-sleuven NIET wijzigen totdat de PPR-bewerking is uitgevoerd. Voorbeelden van de fouten zijn:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Elk van deze gebeurtenissen ni de logboeken, zal ertoe leiden dat PPR wordt gepland voor de volgende herstart (warm of koud) vroeg in de Configuring Memory-fase.

Opmerking: Een bericht-ID MEM8000 (Herstelbare logboekregistratie van geheugenfouten uitgeschakeld voor een geheugenapparaat op locatie DIMM_XX.), zonder een bijbehorende MEM0005/MEM0701/MEM0702 op dezelfde DIMM-locatie, leidt er niet toe dat een PPR wordt gepland voor de volgende keer opstarten.

Zie de update van 10 juli 2020 voor wijzigingen voor het MEM8000 evenement en de bijgewerkte versie 1.1 en nieuwer whitepaper.

Nadat de computer opnieuw is opgestart, controleert u of de PPR-bewerking met succes is uitgevoerd. Een voorbeeld van een succesvolle PPR-bewerking is vergelijkbaar met:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Een DIMM-vervanging voor deze corrigeerbare geheugenfouten is niet nodig, tenzij de PPR-bewerking wordt uitgevoerd. Een voorbeeld van een falend kritiek PPR-bericht is:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Er is nu een nieuw gepubliceerd whitepaper (versie 1.0) beschikbaar waarin de verschillende RAS-functies (geheugengerelateerde betrouwbaarheid, beschikbaarheid en bruikbaarheid) van de Dell PowerEdge server worden beschreven. Deze beschrijft de verschillende RAS-functies en -mogelijkheden die beschikbaar zijn op de PowerEdge servers - Geheugenfouten en Dell EMC PowerEdge YX4X Server Memory RAS-functies.

Raadpleeg voor meer informatie over gebeurtenissen met een corrigeerbare foutdrempel 14G Intel en 15G Intel/AMD PowerEdge servers: DDR4-geheugen: beheer van herstelbare foutdrempelgebeurtenissen.

Bijgewerkt op 24 april 2020

Dell blijft onze "zelfherstel"-mogelijkheden verbeteren. Het volgende gedeelte bevat de updates en verbeteringen voor de verschillende BIOS-versies.

BIOS 2.1.x - Eerste artikelpublicatie van de "zelfherstellende" mogelijkheden die beschikbaar zijn vanaf BIOS 2.1.6 en hoger, inclusief voorbeeldfoutberichten en aanbevolen acties.

BIOS 2.4.x en nieuwere wijzigingen (december 2019)

  • MEM0702 (Corrigeerbaar foutenpercentage overschreden...) - Bericht bijgewerkt van kritiek naar waarschuwing. Met aanbevolen acties bijgewerkt om de server opnieuw op te starten zodat "zelfherstel" kan plaatsvinden, bijvoorbeeld Post Package Repair.
    • De iDRAC van december 2019 of nieuwer moet ook worden geïnstalleerd om het bijgewerkte bericht te ontvangen
    • Aanbevolen actie: Start de server opnieuw op zodat PPR kan worden uitgevoerd
  • MEM9060 - De beschrijving van het bericht is bijgewerkt om aan te geven dat Zelfherstel is voltooid

BIOS 2.5.x en nieuwere wijzigingen (februari 2020)

  • Er is een BIOS-optie "Correctable Error Logging" toegevoegd waarmee klanten alle LifeCycle/SEL-logging met betrekking tot corrigeerbare fouten kunnen uitschakelen. Alle functies voor "zelfherstel" blijven functioneren - PPR en hertraining van het geheugen zijn bijvoorbeeld nog steeds gepland en worden uitgevoerd tijdens de volgende keer opstarten (vroeg in het proces voor het configureren van het geheugen).
  • Toevoeging van MEM08xx-fouten voor RDIMM's en LRDIMM's ter vervanging van bestaande foutmeldingen en acties. Bestaande foutberichten worden nog steeds gebruikt voor platforms die de "zelfherstellende" mogelijkheden niet ondersteunen.
    • Februari 2020 of nieuwere iDRAC is vereist om de nieuwe berichten te loggen.
Opmerking: Zonder de bijgewerkte iDRAC zijn nieuwe BIOS-berichten 'onbekend' in de SEL- of LifeCycle-logboeken.
  • MEM0802 - Vervangen MEM0702 - corrigeerbaar foutpercentage overschreden
    • Aanbevolen actie: Start de server opnieuw op zodat PPR kan worden uitgevoerd. Bevestigen dat PPR is gelukt (MEM0802)
  • MEM0804 - Vervangen MEM9060 wat aangeeft dat PPR is gelukt. Bevat nu de locatie van het DIMM-slot dat PPR heeft uitgevoerd
    • Aanbevolen actie: Geen. Deze gebeurtenis geeft aan dat "zelfherstel" heeft plaatsgevonden, er is geen DIMM-vervanging nodig.
  • MEM0805 - Vervangen UEFI0278 wat aangeeft dat PPR is mislukt
    • Aanbevolen actie: Replace failure-DIMM

Bijgewerkt op 10 juli 2020

BIOS 2.7.x en nieuwere wijzigingen (blok-BIOS van juli 2020 - gericht op half juli voor webposting)

  • MEM8000 (Correctable error logging disabled): vanaf BIOS ~2.0.x heeft Dell Engineering een BIOS-wijziging aangebracht om de snelheid van corrigeerbare foutdetectie te verbeteren die van invloed kan zijn op de prestaties. Deze wijziging resulteerde in een toename van MEM8000 gebeurtenissen die niet werden onderbouwd door de resultaten van de DIMM-foutanalyse. Vanaf BIOS 2.7.x zijn er twee wijzigingen met betrekking tot MEM8000. De eerste is dat de signalering van de MEM8000 gebeurtenis is gewijzigd. Ten tweede plant het BIOS zelfherstel (PPR) voor de volgende keer opstarten. iDRAC-berichten zijn nog niet bijgewerkt om de nieuwe acties weer te geven.
    • Aanbevolen actie: Start de server opnieuw op zodat zelfherstel/PPR kan worden uitgevoerd. Controleer of PPR is geslaagd (MEM0804).
  • MEM0001 (niet te corrigeren fout): zelfherstel (PPR) dat moet worden gepland voor de volgende keer opstarten. iDRAC-berichten zijn nog niet bijgewerkt om de nieuwe acties weer te geven.
    • Aanbevolen actie: Niet nodig als de MEM0001 is gekoppeld aan een kritieke pagina die het besturingssysteem niet kan herstellen - Het is nog steeds een fatale fout die resulteert in opnieuw opstarten. Als de MEM0001 is gekoppeld aan een niet-kritieke pagina waarvan het besturingssysteem kan worden hersteld, moet een herstart worden gepland om alle zelfherstellende (PPR) te laten plaatsvinden. Controleer of PPR is geslaagd (MEM0804).

BIJGEWERKT 13 januari 2021

BIOS 2.8.2 en nieuwere wijzigingen (blok-BIOS van september 2020)

  • MEM9072 (niet te corrigeren fout geïdentificeerd door het scrubproces van de geheugenpatrouille - pagina is niet verbruikt of in gebruik) - Resulteert in zelfherstel (PPR) dat moet worden gepland voor de volgende keer opstarten.  iDRAC-berichten zijn nog niet bijgewerkt om de nieuwe acties weer te geven.
    • Aanbevolen actie: Plan binnenkort een herstart. Het uitstellen van het opnieuw opstarten kan ertoe leiden dat de pagina wordt gebruikt, wat resulteert in een MEM0001-fout die kan leiden tot opnieuw opstarten.  Memory Self-Healing (PPR) wordt uitgevoerd tijdens het opnieuw opstarten. Controleer of PPR is geslaagd (MEM0804).
Opmerking: De meest recente versie van de technische whitepaper (versie 1.3 - uitgiftedatum 20 november 2020) is te vinden op:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfVoor Intel Xeon E en AMD EPYC content raadpleegt u de originele technische whitepaper (versie 1.0) die u kunt vinden op: PowerEdge YX4X servergeheugen RAS whitepaper v1.0 (dell.com)

Er worden extra verbeteringen in de RAS-functie geëvalueerd voor opname in toekomstige BIOS-updates.

Opmerking: Raadpleeg de volgende koppeling voor een gedetailleerde beschrijving en aanbevolen acties voor specifieke foutcodeberichten: Opzoeken (dell.com). Aangezien foutcodes (zoals MEM0001) van toepassing zijn op meerdere generaties servers en platforms, zijn de aanbevolen acties mogelijk niet actueel voor de specifieke BIOS-versie. De nieuwe foutcodes die zijn toegevoegd (zoals MEM0802, MEM0804, MEM0805, enzovoort) zijn alleen van toepassing op servers met Intel Xeon schaalbare processors (eerste of tweede generatie).

Dit artikel wordt bijgewerkt zodra er nieuwe informatie beschikbaar komt.

Zie ook: Richtlijnen voor het oplossen van geheugenproblemen door swaptesten - Geheugenfouten op PowerEdge systemen oplossen door swaptesten

Downloads en drivers: Drivers en downloads | Dell VS

Berörda produkter

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Produkter

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Artikelegenskaper
Artikelnummer: 000053203
Artikeltyp: Solution
Senast ändrad: 19 apr. 2024
Version:  15
Få svar på dina frågor från andra Dell-användare
Supporttjänster
Kontrollera om din enhet omfattas av supporttjänster.