Article Number: 000053203
Es gibt fortlaufende Verbesserungen und Erweiterungen am Dell PowerEdge-BIOS, um die Speicher-Ereignismeldungen, die Fehlerbehandlung und die "automatische Fehlerkorrektur" nach einem Serverneustart zu verbessern. Dadurch wird verhindert, dass ein geplantes Wartungsfenster oder eine Vor-Ort-Präsenz erforderlich ist, um ein DDR4-Arbeitsspeicher-DIMM auszutauschen, das Fehlerereignisse protokolliert hat.
Für PowerEdge-Server mit DDR4, auf denen BIOS-Version 2.1.x und höher ausgeführt wird, wurden zwei wichtige speicherbezogene BIOS-Verbesserungen für die „automatische Fehlerkorrektur“ implementiert. Durch diese Verbesserungen werden die empfohlenen Schritte oder Maßnahmen geändert, die ausgeführt werden müssen, wenn Speicherereignisse auftreten und im LifeCycle-Protokoll protokolliert werden.
Ein erneutes Training des Arbeitsspeichers, das während des Startvorgangs (zu Beginn der Speicherkonfigurationsschritte) durchgeführt wird, optimiert das Signal-Timing und die Signalbegrenzung für jedes DIMM/jeden Steckplatz für den besten Zugriff. Das Timing der Speichersignale und die Signalbegrenzungseigenschaften eines DIMM können sich im Laufe der Zeit aus verschiedenen Gründen ändern:
Zuvor hatten BIOS-Aktualisierungen oder Änderungen der Speicherkonfiguration dazu geführt, dass während des nachfolgenden Startvorgangs ein erneutes Training des Speichers durchgeführt wurde. Ab BIOS 2.1.x wurden zusätzliche „Trigger“ für korrigierbare und nicht korrigierbare Speicherfehler zum erneuten Training hinzugefügt:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jeder dieser Fehler, der in den SEL/LifeCycle-Protokollen protokolliert wird, führt dazu, dass für den nächsten Neustart (warm oder kalt) ein erneutes Training des Arbeitsspeichers geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Dieser Multi-Bit-Fehler kann dazu führen, dass der Server aufgrund eines schwerwiegenden Fehlers neu gestartet wird, wenn das Betriebssystem diesen Fehler nicht beheben kann. Während dieses Startvorgangs erfolgt automatisch ein erneutes Training des Arbeitsspeichers. Wenn der Multi-Bit-Fehler an einem nicht kritischen Speicherort auftritt und das Betriebssystem diesen verarbeiten kann, muss ein Neustart geplant werden.
Ein erneutes Training des Arbeitsspeichers während des POST kann eine "automatische Fehlerkorrektur" des fehlerhaften DIMM und des zugehörigen Steckplatzes durchführen, indem das Signal-Timing und die Signalbegrenzung optimiert werden. Eine DIMM-Ersatz ist bei diesen Fehlern nicht erforderlich, es sei denn, das erneute Training des Arbeitsspeichers schlägt während des Startvorgangs fehl (UEFI0106), oder es treten weiterhin dieselben Fehler auf.
Die zweite "selbstheilende" Gedächtnisverbesserung ist die PPR. PPR repariert einen fehlerhaften Speicherort, indem der Speicherort oder die Adresse auf Hardwareebene deaktiviert wird und stattdessen eine Ersatzspeicherreihe verwendet werden kann. Die genaue Anzahl der verfügbaren Ersatzspeicherzeilen hängt vom DRAM-Gerät und der DIMM-Größe ab.
Bisher war diese Funktionalität auf den Herstellungsprozess beschränkt. Wie bei den zuvor erwähnten Verbesserungen beim erneuten Training des Arbeitsspeichers gibt es bestimmte korrigierbare Speicherfehler, die dazu führen, dass PPR auf einem bestimmten DIMM-Steckplatz für den nächsten Neustart (warm oder kalt) geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird. Da der PPR-Vorgang auf einem bestimmten DIMM-Steckplatz geplant ist, dürfen die DIMM Steckplatz Positionen NICHT geändert werden, bis der PPR-Vorgang ausgeführt wurde. Beispiele für die Fehler sind:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jedes dieser Ereignisse in den Protokollen führt dazu, dass PPR für den nächsten Neustart (warm oder kalt) zu Beginn der Speicherkonfigurationsphase geplant wird.
Überprüfen Sie nach dem Neustart, ob der PPR-Vorgang erfolgreich durchgeführt wurde. Ein Beispiel für einen erfolgreichen PPR-Vorgang lautet wie folgt:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Ein neu veröffentlichtes Whitepaper (Version 1.0), in dem die speicherbezogenen Funktionen für die Zuverlässigkeit, Verfügbarkeit und Betriebsfähigkeit (RAS) von Dell PowerEdge-Servern beschrieben werden, ist jetzt verfügbar, in dem die verschiedenen RAS-Funktionen und Funktionen beschrieben werden, die auf PowerEdge-Servern verfügbar sind – Speicherfehler und Dell EMC PowerEdge YX4X-Server-Arbeitsspeicher-RAS-Funktionen.
Weitere Informationen zu korrigierbaren Fehlerschwellenwertereignissen finden Sie unter 14G Intel und 15G Intel/AMD PowerEdge-Server: DDR4-Speicher: Managen korrigierbarer Fehlerschwellenwertereignisse.Aktualisierung vom 24. April 2020
Dell verbessert kontinuierlich die Funktionen zur "automatischen Fehlerkorrektur". Der folgende Abschnitt enthält eine Liste der Updates und Verbesserungen im Zusammenhang mit den verschiedenen BIOS-Versionen.
BIOS 2.1.x: Erste Artikelveröffentlichung der verfügbaren Funktionen zur automatischen Fehlerkorrektur ab BIOS 2.1.6, einschließlich Beispiel-Fehlermeldungen und empfohlener Maßnahmen.
Änderungen in BIOS 2.4.x und höher (Dezember 2019)
Änderungen bei BIOS 2.5.x und höher (Februar 2020)
Aktualisierung vom 10. Juli 2020
Änderungen in BIOS 2.7.x und höher (Block-BIOS Juli 2020 – geplante Webveröffentlichung Mitte Juli)
AKTUALISIERUNG vom 13. Januar 2021
Änderungen in BIOS 2.8.2 und höher (Block-BIOS September 2020)
Es gibt zusätzliche RAS-Funktionsverbesserungen, die für die Aufnahme in zukünftige BIOS-Aktualisierungen evaluiert werden.
Dieser Artikel wird laufend aktualisiert.
Siehe auch: Anleitung zum Troubleshooting des Arbeitsspeichers durch Austauschtests – Troubleshooting von Speicherfehlern auf PowerEdge-Systemen durch Austauschtests
Downloads und Treiber: Treiber und Downloads | Dell USA
VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
19 Apr 2024
15
Solution