14G Intel und 15G Intel/AMD PowerEdge-Server: DDR4-Speicher: Verwalten korrigierbarer Fehlerschwellenwertereignisse
Résumé:
Aktualisierte Empfehlungen für Kunden beim Umgang mit korrigierbaren Fehlerschwellenwertereignissen (MEM0802 oder MEM5104) auf DDR4-RDIMMs oder LRDIMMs, die in Intel basierten 14G- und
15G-PowerEdge-Servern sowie AMD-basierten 15G-PowerEdge-Servern installiert sind.
Hinweis: Dieser Artikel gilt nicht für AMD-basierte PowerEdge-Server der 14. Generation, wie z. B. die 64x5- oder 74x5-Plattformen, da diese nicht über diese Funktion zur Reparatur nach dem Verpacken / automatischen Fehlerkorrektur verfügen, obwohl das DIMM selbst dies unterstützt.
...
Sélectionnez un produit pour vérifier la pertinence de l’article
Cet article concerne Cet article ne concerne pasCet article n’est associé à aucun produit spécifique.Toutes les versions du produit ne sont pas identifiées dans cet article.
Durch die Weiterentwicklung von RAS-Funktionen (Zuverlässigkeit, Zugänglichkeit und Betriebsfähigkeit) in Arbeitsspeichern der Enterprise-Klasse verfolgt Dell einen konservativen Ansatz beim Reporting von Fehlern, um unseren Kunden Transparenz zu bieten. Mit dieser Weiterentwicklung entwickelt sich auch der Ansatz von Dell für das Fehlerreporting weiter, sodass wir uns auf Mitteilungen konzentrieren können, die eine dringendere Reaktion erfordern, im Gegensatz zu Mitteilungen, die primär informativer Natur sind.
Da DRAM-basierte Speichergeometrien immer kleiner werden, um Kunden die von ihnen geforderte höhere Leistung zu bieten, wird eine zunehmende Anzahl korrigierbarer Fehler als natürlicher Bestandteil einer einheitlichen Skalierung erwartet.
Cause
In der globalen Serverbranche setzt sich zunehmend die Auffassung durch, dass einige korrigierbare Fehler pro DIMM unvermeidbar sind und nicht zwangsläufig einen Austausch des Arbeitsspeichermoduls oder gar einen sofortigen Neustart zur Initiierung der automatischen Fehlerkorrektur rechtfertigen.
Résolution
Wenn Sie ein System, das korrigierbare Fehler meldet, weiter betreiben, ohne dass ein Neustart zur automatischen Fehlerkorrektur durchgeführt wird, erhöht sich das Risiko nicht korrigierbarer Fehler, die zu ungeplanten Ausfallzeiten führen können, nicht wesentlich. Tatsächlich haben andere in der Branche öffentlich mitgeteilt, dass ihre Speicherbehandlung keine korrigierbaren Fehler meldet.
In der Intel PowerEdge-BIOS-Version 2.5.4 der 14. Generation und höher wurde eine BIOS-Einstellung namens "Correctable Error Logging" hinzugefügt, um Kunden die Möglichkeit zu geben, die Berichterstattung korrigierbarer Fehler zu deaktivieren, wenn sie dies wünschen, was bei vielen der Fall ist. Das BIOS plant weiterhin die automatische Fehlerkorrektur für korrigierbare Schwellenwertereignisse, auch ohne Protokollierung. Diese geplante automatische Fehlerkorrektur erfolgt automatisch während des nachfolgenden Systemneustarts.
Um besser auf das Feedback der Branche und der Kunden zu reagieren, wird ab März 2022 bei den Dell PowerEdge-BIOS-Updates die BIOS-Einstellung "Correctable Error Logging" standardmäßig deaktiviert. Diese BIOS-Option kann erneut aktiviert werden, wenn Kunden weiterhin korrigierbare Speicherschwellenwertereignisse sehen möchten. BIOS-Versionen, bei denen diese Änderung der BIOS-Einstellung enthalten ist:
14G Intel Plattformen – BIOS-Versionen 2.13.3 oder höher
15G AMD-Plattformen: BIOS-Versionen 2.6.5 oder höher
15G Intel Plattformen: BIOS-Versionen 1.5.5 oder höher.
Die Vorteile der automatischen Fehlerkorrektur des DDR4-DIMM nach einem Systemneustart:
Ermöglicht die Reparatur eines DDR4-DIMMs ohne Ausbau aus dem System. Alle DDR4-DIMMs von Dell unterstützen die automatische Fehlerkorrektur des Arbeitsspeichers. Hinweis: AMD PowerEdge-Server der 14. Generation verfügen nicht über diese Funktion zur automatischen Fehlerkorrektur.
Nutzt verfügbare Ersatzzeilen, die in den DRAM integriert sind, wobei eine fehlerhafte Reihe durch elektrische Sicherung dauerhaft durch eine bekanntermaßen funktionierende Reihe ersetzt wird.
Beim nachfolgenden erneuten Training des Speichers werden die "Datenaugen" optimiert, indem die Mittelpunkte neu kalibriert werden, um sicherzustellen, dass der Speicherbus mit der höchsten Signalintegrität arbeitet.
Für korrigierbare Schwellenwertereignisse mit aktivierter BIOS-Einstellung "Protokollierbare Fehlerprotokollierung" empfiehlt Dell im Falle von Speicherschwellenwertereignissen einen Neustart gemäß dem regulären Wartungsplan des Kunden, damit die geplante automatische Fehlerkorrektur oder Selbstkorrektur des Arbeitsspeichers erfolgen kann. Nach dem Neustart werden erfolgreiche oder fehlgeschlagene Ereignisse der automatischen Fehlerkorrektur für die zugehörigen DIMMs protokolliert.
Wenn die BIOS-Einstellung D für "Correctable Error Logging" aktiviert ist, empfiehlt Dell, den Neustart gemäß dem regulären Wartungsplan des Kunden durchzuführen. Beim Neustart werden alle geplanten Vorgänge zur automatischen Fehlerkorrektur automatisch ausgeführt. Das System protokolliert ein Ereignis (MEM0805 oder MEM7114 Ereignisse), wenn der Selbstheilungs-/Selbstkorrekturvorgang nicht erfolgreich war, und empfiehlt weiterhin, das betroffene DIMM physisch auszutauschen.
Empfehlung: Dell EMC Memory Engineering empfiehlt PowerEdge-Serverkunden mit älteren BIOS-Versionen (vor dem Block 2022 im März 2022), die BIOS-Einstellung "Correctable Error Logging" in " Disabled" zu ändern. Dadurch werden die sporadischen korrigierbaren Speicherschwellenwertereignisse (z. B. Ereignisse vom Typ MEM0802 oder MEM5104) in der Serverinfrastruktur eliminiert, die Serverneustarts empfehlen, um eine automatische Fehlerkorrektur oder Fehlerkorrektur zu ermöglichen. Wie bereits erwähnt, werden alle geplanten Vorgänge zur automatischen Fehlerkorrektur oder -korrektur automatisch ausgeführt, wenn der Server neu gestartet wird, und alle Fehler werden gemeldet.
Die BIOS-Einstellung "Correctable Error Logging" kann entweder durch Neustart des Servers auf F2-Einstellungen oder über die iDRAC-GUI geändert werden.
So ändern Sie die BIOS-Einstellung mithilfe der F2-Einstellungen:
Starten Sie die Server neu, die bei F2-Einstellungen stoppen
Setzen Sie unter BIOS Settings –> Memory Settings die Option "Correctable Error Logging" auf "Disabled".
Speichern Sie die BIOS-Einstellungen und beenden Sie die F2-Einstellungen
So ändern Sie die BIOS-Einstellung über die iDRAC-GUI:
Melden Sie sich bei der iDRAC-GUI an
Erweitern Sie unter Konfiguration –> BIOS-Einstellungen den Abschnitt Speichereinstellungen
Ändern Sie die Einstellung "Correctable Error Logging" in "Disable".
Klicken Sie auf die Schaltfläche "Anwenden", um die Speichereinstellungen zu speichern
Vergessen Sie nicht, entweder die Schaltfläche Anwenden und neu starten (um sofort neu zu starten) oder die SchaltflächeBeim nächsten Neustart auszuwählen, um die BIOS-Änderungen zu übernehmen.
Vorhandene arbeitsspeicherbezogene KB-Artikel und Whitepapers werden aktualisiert, um diese empfohlene Änderung widerzuspiegeln.
HINWEIS: Die genehmigte kundenorientierte Nachricht ist als Datei an diesen Artikel angehängt: "Managen korrigierbarer Fehlerbenachrichtigungen vom Dezember 2021 v1.pdf".