14G Intel och 15G Intel/AMD PowerEdge-servrar: DDR4-minne: hantera korrigerbara händelser vid feltröskeln
概要:
Uppdaterade rekommendationer för kunder vid hantering av korrigerbara feltröskelhändelser (MEM0802 eller MEM5104) på DDR4 RDIMM- eller LRDIMM-moduler som är installerade i
Intel-baserade 14G och 15G PowerEdge-servrar samt AMD-baserade 15G PowerEdge-servrar.
Obs! Den här artikeln gäller inte AMD-baserade 14G PowerEdge-servrar, till exempel 64x5- eller 74x5-plattformarna, eftersom de inte har den här funktionen för efterpaketreparation/självläkning, även om själva DIMM-modulen stöder den.
...
Under utvecklingen av RAS-funktionerna (Reliability, Accessibility and Serviceability) i företagsminnet har Dell valt en konservativ metod för felrapportering för att ge kunderna transparens. I takt med att den här utvecklingen fortsätter även Dells strategi för felrapportering för att möjliggöra fokus på meddelanden som kräver mer brådskande svar jämfört med meddelanden som främst är av informationskaraktär.
I takt med att DRAM-baserade minnesgeometrier fortsätter att krympa, vilket ger kunderna den ökade prestanda de kräver, förväntas ett ökande antal korrigerbara fel som en naturlig del av enhetlig skalning.
原因
Inom den globala serverbranschen finns det en alltmer accepterad uppfattning, som delas av Dell, att vissa korrigerbara fel per DIMM är oundvikliga och inte i sig motiverar ett byte av minnesmodul eller ens en omedelbar omstart för att initiera självkorrigering.
解決方法
Att fortsätta driva ett system som rapporterar korrigerbara fel utan en omstart för att självläka ökar inte nämnvärt risken för att uppleva icke-korrigerbara fel som kan leda till oplanerade driftstopp. Faktum är att andra i branschen offentligt har meddelat att deras minneshantering inte rapporterar korrigerbara fel.
I 14G Intel PowerEdge BIOS version 2.5.4 och senare har en BIOS-inställning lagts till som kallas "Correctable Error Logging", så att kunderna kan inaktivera korrigerbar felrapportering om de vill, vilket många har gjort. BIOS fortsätter att schemalägga självläkning för korrigerbara tröskelhändelser även utan loggning. Den schemalagda självläkningen sker automatiskt under efterföljande systemomstart.
Från och med mars 2022 kommer Dell PowerEdge BIOS-uppdateringar att ändra BIOS-inställningen "Correctable Error Logging" till inaktiverad som standard, för att ligga mer i linje med branschen och fortsatt feedback från kunder. Det här BIOS-alternativet kan återaktiveras för kunder som vill fortsätta att se korrigerbara händelser vid minnets tröskelvärde. BIOS-versioner där den här ändringen av BIOS-inställningarna ingår är:
14G Intel-plattformar – BIOS-version 2.13.3 eller senare
15G AMD-plattformar – BIOS-version 2.6.5 eller senare
15G Intel-plattformar – BIOS-versionerna 1.5.5 eller senare.
Fördelarna med DDR4 DIMM självläker via en omstart av systemet:
Möjliggör reparation av en DDR4 DIMM utan borttagning från systemet; Alla DDR4 DIMM-moduler från Dell stöder självläkning av minnet. Obs! 14G AMD PowerEdge-servrar har inte den här självläkande funktionen.
Använder tillgängliga reservrader som är inbyggda i DRAM-minnet där en felaktig rad permanent ersätts med en känd fungerande rad genom elektrisk säkring.
Den efterföljande minnesinlärningen optimerar "dataögonen" genom att kalibrera om mittpunkterna för att säkerställa att minnesbussen arbetar på högsta nivå av signalintegritet.
För korrigerbara tröskelhändelser med BIOS-inställningen "Correctable Error Logging" aktiverad, om minneströskelhändelser inträffar, rekommenderar Dell att du startar om enligt kundens ordinarie underhållsschema så att det schemalagda minnet kan självläkande eller självkorrigerande ske. Efter omstarten loggas lyckade eller misslyckade självläkningshändelser för de associerade DIMM-modulerna.
Med BIOS-inställningen "Correctable Error Logging" aktiverad rekommenderar Dell att du startar om enligt kundens ordinarie underhållsschema. Vid omstart körs alla schemalagda självläkningsåtgärder automatiskt. Systemet loggar en händelse (händelser av typen MEM0805 eller MEM7114) om självläknings-/självkorrigeringsåtgärden misslyckades och rekommenderar vidare att fysiskt byta ut den berörda DIMM-modulen.
Rekommendation: Dell EMC Memory Engineering rekommenderar att PowerEdge Server-kunder med äldre BIOS-versioner (BIOS-versioner före mars 2022) inför att ändra BIOS-inställningen "Correctable Error Logging" till Inaktiverad. Detta eliminerar de sporadiska korrigerbara minneströskelhändelserna (t.ex. händelser av typen MEM0802 eller MEM5104) i serverinfrastrukturen som rekommenderar omstart av servern så att självläkning eller självkorrigering kan ske. Som tidigare nämnts körs alla schemalagda självläknings- eller självkorrigeringsåtgärder automatiskt när servern startas om och eventuella fel rapporteras.
BIOS-inställningen för Correctable Error Logging kan ändras antingen genom att starta om servern till F2-inställningarna eller via iDRAC GUI.
Så här ändrar du BIOS-inställningen med F2-inställningarna:
Starta om servrarna och stoppa vid F2-inställningarna
I valet BIOS Settings -> Memory Settings (BIOS-inställningar - minnesinställningar) ändrar du "Correctable Error Logging" till inaktiverad.
Spara BIOS-inställningarna och avsluta F2-inställningarna
Så här ändrar du BIOS-inställningen med hjälp av iDRAC GUI:
Logga in på iDRAC GUI
Under Konfiguration -> BIOS-inställningar expanderar du avsnittet Minnesinställningar
Ändra inställningen "Correctable Error Logging" till inaktiverad
Klicka på knappen Verkställ för att spara minnesinställningarna
Glöm inte att välja antingen knappen Verkställ och starta om (för att starta om omedelbart) eller Vid nästa omstart för att tillämpa BIOS-ändringarna.
Befintliga minnesrelaterade KB-artiklar och whitepapers kommer att uppdateras för att återspegla den här rekommenderade ändringen.
NOTERA: De godkända kundriktade meddelandena bifogas som en fil till den här artikeln – "Hantera korrigerbara felmeddelanden dec 2021 v1.pdf".
Den här artikeln kommer att uppdateras när ny information blir tillgänglig.