Der er løbende forbedringer og forbedringer af Dell PowerEdge BIOS for at forbedre meddelelser om hukommelseshændelser, fejlhåndtering og "selvreparation", der opstår ved en genstart af serveren. Dette forhindrer behovet for et planlagt vedligeholdelsesvindue eller onsite-tilstedeværelse for at udskifte en DIMM-hukommelse med DDR4-hukommelse, der loggede fejlhændelser.
Der er to primære hukommelsesrelaterede "selvreparerende" BIOS-forbedringer, der blev implementeret for PowerEdge-servere med DDR4, der kører BIOS-version 2.1.x og nyere. Disse forbedringer ændrer de anbefalede trin eller handlinger, der skal udføres, hvis der opstår hukommelseshændelser, og logføres i livscyklusloggen.
Genoptræningen af hukommelsen, som finder sted under opstart (tidligt i trinnene til konfiguration af hukommelse), optimerer signaltimingen og margenerne for hvert DIMM-modul/slot for at opnå den bedste adgang. Hukommelsessignaltiming og margenegenskaber for et DIMM-modul kan ændre sig over tid af flere forskellige årsager:
Tidligere resulterede registrerede BIOS-opdateringer eller hukommelseskonfigurationsændringer i en omskoling af hukommelsen, som sker under den efterfølgende opstart. Fra og med BIOS 2.1.x blev ekstra "udløsere" af hukommelsesfejl, som kan og ikke kan rettes, tilføjet med henblik på planlagt omskoling:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Enhver af disse fejl, der logges i SEL/LifeCycle-logfilerne, resulterer i, at der planlægges genoptræning af hukommelsen til næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Denne multi-bit-fejl kan resultere i, at serveren genstarter på grund af en fatal fejl, hvis operativsystemet ikke er i stand til at håndtere denne fejl. Genoptræning af hukommelsen finder automatisk sted under denne opstart. Hvis multi-bit-fejlen opstår på en ikke-kritisk hukommelsesplacering, som operativsystemet kan håndtere, skal en genstart planlægges.
Genoptræning af hukommelsen under POST kan "selvhelbrede" det defekte DIMM-modul og det tilhørende slot ved at optimere signaltimingen og margenerne. En udskiftning af DIMM-modul er ikke nødvendig i forbindelse med disse fejl, medmindre omskolingen af hukommelsen mislykkes (UEFI0106) under opstart, eller hvis de samme fejl fortsat opstår.
Den anden "selvhelbredende" hukommelsesforbedring er PPR. PPR reparerer en defekt hukommelsesplacering ved at deaktivere placeringen eller adressen på hardwarelaget, så en ekstra hukommelsesrække kan bruges i stedet. Det nøjagtige antal reservehukommelsesrækker afhænger af DRAM-enhedens og DIMM-modulets størrelse.
Tidligere var denne funktionalitet begrænset til produktionsprocessen. Som med de tidligere nævnte forbedringer af genoptræningen af hukommelsen er der visse hukommelsesfejl, der kan rettes, der medfører, at PPR planlægges på en bestemt DIMM-slot til næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes. Da PPR-handlingen planlægges på et bestemt DIMM-modulstik, MÅ DU IKKE ændre DIMM-modulstikplaceringer, før PPR-handlingen er blevet kørt. Eksempler på fejl er:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Enhver af disse hændelser i logfilerne vil resultere i, at PPR planlægges til den næste genstart (varm eller kold) tidligt i fasen Konfiguration af hukommelse.
Efter genstart skal du verificere, at PPR-handlingen er blevet gennemført. Et eksempel på en vellykket PPR-operation ligner:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Nu er der en nyligt offentliggjort hvidbog (version 1.0), der beskriver Dell PowerEdge-serverens hukommelsesrelaterede RAS-funktioner (Reliability, Availability, and Serviceability), som beskriver de forskellige RAS-funktioner og -egenskaber, der er tilgængelige på PowerEdge-serverne – Hukommelsesfejl og Dell EMC PowerEdge YX4X-serverhukommelsens RAS-funktioner.
Du kan finde flere oplysninger om fejltærskelhændelser, der kan rettes, i 14G Intel- og 15G Intel/AMD PowerEdge-servere: DDR4-hukommelse: administration af tærskelhændelser, der kan rettes fejl.Opdateret 24. april 2020
Dell fortsætter med at forbedre vores "selvhelbredende" funktioner. Følgende afsnit indeholder en liste over opdateringer og forbedringer, der er tilknyttet de forskellige BIOS-versioner.
BIOS 2.1.x – Indledende artikeludgivelse af de tilgængelige "selvhelbredende" funktioner startende med BIOS 2.1.6 og højere, herunder eksempler på fejlmeddelelser og anbefalede handlinger.
BIOS 2.4.x og nyere ændringer (december 2019)
BIOS 2.5.x og nyere ændringer (februar 2020)
Opdateret 10. juli 2020
BIOS 2.7.x og nyere ændringer (juli 2020-blok BIOS – planlagt medio juli til webindlæg)
OPDATERET 13. januar 2021
BIOS 2.8.2 og nyere ændringer (september 2020-blok BIOS)
Der er yderligere RAS-funktionsforbedringer, der vurderes for medtagelse i fremtidige BIOS-opdateringer.
Denne artikel opdateres, efterhånden som nye oplysninger bliver tilgængelige.
Se også: Vejledning i fejlfinding af hukommelse ved swap-test – Fejlfinding af hukommelsesfejl på PowerEdge-systemer ved swap-test
Downloads og drivere: Drivere og downloads | Dell USA