14G Intel- og 15G Intel/AMD PowerEdge-servere: DDR4-minne: Administrere korrigerbare feilterskelhendelser
Résumé:
Oppdaterte anbefalinger til kunder ved administrasjon av korrigerbare feilterskelhendelser (MEM0802 eller MEM5104) på DDR4 RDIMM-er eller LRDIMM-er installert i Intel-baserte 14G og
15G PowerEdge-servere samt AMD-baserte 15G PowerEdge-servere.
Merk: Denne artikkelen gjelder ikke for 14G AMD-baserte PowerEdge-servere, for eksempel 64x5- eller 74x5-plattformene, da de ikke har denne Post Package Repair/self Reparasjon-funksjonen, selv om DIMM-en selv støtter den.
...
Sélectionnez un produit pour vérifier la pertinence de l’article
Cet article concerne Cet article ne concerne pasCet article n’est associé à aucun produit spécifique.Toutes les versions du produit ne sont pas identifiées dans cet article.
Gjennom utviklingen av RAS-funksjoner (pålitelighet, tilgjengelighet og tilgjengelighet) i hele minnet i virksomhetsklassen, har Dell tatt en konservativ tilnærming til feilrapportering for å gi åpenhet til kundene våre. Etter hvert som denne utviklingen fortsetter, fortsetter også Dells tilnærming til feilrapportering for å gjøre det mulig å fokusere på meldinger som krever en mer presserende respons kontra meldinger som hovedsakelig er informative.
Etter hvert som DRAM-baserte minnegeometrier fortsetter å krympe, noe som gir kundene den økte ytelsen de krever, forventes et økende antall korrigerbare feil som en naturlig del av uniform skalering.
Cause
I den globale serverbransjen er det en stadig mer akseptert forståelse, delt av Dell, at enkelte korrigerbare feil per DIMM er uunngåelige og ikke i seg selv garanterer utskifting av en minnemodul eller til og med en umiddelbar omstart for å starte selvreparasjon.
Résolution
Fortsatt drift av et system som rapporterer korrigerbare feil uten omstart for å hjelpe deg selv, øker ikke risikoen for å oppleve uopprettelige feil som kan føre til ikke-planlagt nedetid. Faktisk har andre i bransjen offentlig kommunisert at deres minnehåndtering ikke rapporterer korrigerbare feil.
I 14G Intel PowerEdge BIOS versjon 2.5.4 og nyere ble det lagt til en BIOS-innstilling kalt "Korrigerbar feillogging", for å gi kundene muligheten til å deaktivere korrigerbar feilrapportering hvis de velger, og mange har gjort det. BIOS fortsetter å planlegge selvreparasjon for korrigerbare terskelhendelser selv uten logging. Denne planlagte selvreparasjonen skjer automatisk under den påfølgende systemomstarten.
For å trekke mer i tråd med bransjen og kontinuerlig tilbakemeldinger fra kunder, vil Dell PowerEdge BIOS-oppdateringer fra og med mars 2022 endre BIOS-innstillingen "Korrigerbar feillogging" til deaktivert som standard. Dette BIOS-alternativet kan aktiveres på nytt for kunder som fortsatt ønsker å se korrigerbare minneterskelhendelser. BIOS-versjoner der denne BIOS-innstillingsendringen er inkludert, er:
14G Intel-plattformer – BIOS-versjon 2.13.3 eller nyere
15G AMD-plattformer – BIOS-versjon 2.6.5 eller nyere
15G Intel-plattformer – BIOS-versjon 1.5.5 eller nyere.
Fordelene med selvhjelp for DDR4 DIMM via en omstart av systemet:
Muliggjør reparasjon av en DDR4 DIMM uten å bli tatt ut av systemet. Alle DDR4 DIMM-er anskaffet fra Dell støtter selvhjelp for minnet. Merk – 14G AMD PowerEdge-servere har ikke denne selvreparerende funksjonen.
Bruker tilgjengelige reserverader som er arkitektonert inn i DRAM, der en dårlig rad erstattes permanent med en fungerende rad med elektrisk fusing.
Den påfølgende minneomskoleringen optimaliserer "dataøynene" ved å kalibrere midtpunktene på nytt for å sikre at minnebussen fungerer på høyeste nivå av signalintegritet.
For korrigerbare terskelhendelser med BIOS-innstillingen Korrigerbar feilloggingaktivert, og hvis minneterskelhendelser oppstår, anbefaler Dell at du starter på nytt etter kundens regelmessige vedlikeholdsplan, slik at den planlagte selvreparasjonen eller selvkorrigeringen av minnet kan utføres. Etter omstarten loggføres vellykkede eller mislykkede selvreparasjonshendelser for de tilknyttede DIMM-ene.
Når BIOS-innstillingen "Korrigerbar feillogging" er aktivert, anbefaler Dell å starte på nytt i kundens regelmessige vedlikeholdsplan. Ved omstart kjøres alle planlagte selvreparasjonsoperasjoner automatisk. Systemet logger en hendelse (MEM0805 eller MEM7114 hendelser) hvis selvreparasjons-/selvkorrigeringsoperasjonen mislyktes, og anbefaler videre fysisk utskifting av den berørte DIMM-en.
Anbefaling: Dell EMC Memory Engineering anbefaler at PowerEdge Server-kunder på eldre BIOS-versjoner (før mars 2022 BIOS-utgivelser), tar i bruk å endre BIOS-innstillingen "Korrigerbar feillogging" til Deaktivert. Dette eliminerer sporadiske korrigerbare minneterskelhendelser (for eksempel hendelser MEM0802 eller MEM5104 typer) på tvers av serverinfrastrukturen som anbefaler omstart av serveren for å tillate selvreparasjon eller selvkorrigering. Som nevnt tidligere, vil alle planlagte selvreparasjons- eller selvkorrigeringsoperasjoner kjøre automatisk når serveren startes på nytt, og eventuelle feil vil bli rapportert.
BIOS-innstillingen "Correctable Error Logging" kan endres enten ved å starte serveren på nytt til F2 Settings eller via iDRAC GUI.
Slik endrer du BIOS-innstillingen ved hjelp av F2-innstillinger:
Start serverne på nytt ved F2-innstillinger
I BIOS-innstillinger –> valg av minneinnstillinger endrer du "Korrigerbar feillogging" til deaktivert.
Lagre BIOS-innstillingene, og avslutt F2-innstillingene
Slik endrer du BIOS-innstillingen ved hjelp av iDRAC GUI:
Logg på iDRAC GUI
Under Konfigurasjon -> BIOS-innstillinger utvider du delen Minneinnstillinger
Endre innstillingen "Korrigerbar feillogging" til deaktivert
Klikk på Bruk-knappen for å lagre minneinnstillingene
Ikke glem å velge enten knappen Bruk og start på nytt (for å starte på nytt umiddelbart) eller knappen Ved neste omstart for å bruke BIOS-endringene.
Eksisterende minnerelaterte KB-artikler og whitepapers oppdateres for å gjenspeile denne anbefalte endringen.
MERK: De godkjente kunderettede meldingene er vedlagt som en fil i denne artikkelen – "Managing Correctable Error Notices Dec 2021 v1.pdf".
Denne artikkelen vil bli oppdatert etter hvert som ny informasjon blir tilgjengelig.