Summary:
Bijgewerkte aanbevelingen voor klanten bij het beheren van corrigeerbare foutdrempelgebeurtenissen (MEM0802 of MEM5104) op DDR4 RDIMM's of LRDIMM's die zijn geïnstalleerd in 14G en 15G
PowerEdge servers van Intel, evenals op AMD gebaseerde 15G PowerEdge servers.
Opmerking: Dit artikel is niet van toepassing op 14G AMD-gebaseerde PowerEdge servers, zoals de 64x5- of 74x5-platforms, omdat ze niet beschikken over deze mogelijkheid voor reparatie na het pakket/zelfherstel, ook al ondersteunt de DIMM zelf dit.
...
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Door de evolutie van RAS-functies (betrouwbaarheid, toegankelijkheid en bruikbaarheid) in het geheugen van ondernemingsklasse heeft Dell gekozen voor een conservatieve benadering van foutrapportage om transparantie te bieden aan onze klanten. Naarmate deze evolutie zich voortzet, doet Dell dat ook voor foutrapportage, zodat de focus kan liggen op meldingen die een dringender reactie vereisen versus meldingen die voornamelijk informatief van aard zijn.
Naarmate de op DRAM gebaseerde geheugengeometrieën steeds kleiner worden, waardoor klanten de hogere prestaties krijgen die ze eisen, wordt een toenemend aantal corrigeerbare fouten verwacht als een natuurlijk onderdeel van uniforme schaling.
Cause
Binnen de wereldwijde serverindustrie is Dell het er steeds meer over eens dat sommige corrigeerbare fouten per DIMM onvermijdelijk zijn en niet inherent een vervanging van de geheugenmodule of zelfs een onmiddellijke herstart rechtvaardigen om zelfherstel te starten.
Resolution
Het blijven werken van een systeem dat corrigeerbare fouten meldt zonder opnieuw op te starten om zichzelf te herstellen, verhoogt het risico op niet-corrigeerbare fouten die kunnen leiden tot ongeplande downtime niet significant. Anderen in de branche hebben zelfs publiekelijk gecommuniceerd dat hun geheugenverwerking geen corrigeerbare fouten meldt.
In de 14G Intel PowerEdge BIOS versie 2.5.4 en nieuwer is een BIOS-instelling toegevoegd met de naam "Correctable Error Logging", zodat klanten de mogelijkheid hebben om corrigeerbare foutrapportage uit te schakelen als ze dat willen, en velen hebben dat gedaan. Het BIOS blijft zelfherstel plannen voor herstelbare drempelgebeurtenissen, zelfs zonder de logboekregistratie. Deze geplande zelfherstel vindt automatisch plaats tijdens de volgende herstart van het systeem.
Om meer in lijn te komen met de branche en de voortdurende feedback van klanten, zullen Dell PowerEdge BIOS-updates vanaf maart 2022 de BIOS-instelling "Correctable Error Logging" standaard op uitgeschakeld zetten. Deze BIOS-optie kan opnieuw worden ingeschakeld voor klanten die corrigeerbare geheugendrempelgebeurtenissen willen blijven zien. BIOS-versies met deze wijziging van de BIOS-instelling zijn:
14G Intel platforms - BIOS-versie 2.13.3 of nieuwer
15G AMD platforms - BIOS-versie 2.6.5 of nieuwer
15G Intel platforms - BIOS-versie 1.5.5 of nieuwer.
De voordelen van DDR4 DIMM-zelfherstel via een herstart van het systeem:
Hiermee kunt u een DDR4 DIMM repareren zonder deze uit het systeem te verwijderen; alle DDR4 DIMM's van Dell ondersteunen zelfherstel van het geheugen. Opmerking: 14G AMD PowerEdge servers hebben dit zelfherstellend vermogen niet.
Maakt gebruik van beschikbare reserverijen die zijn ingebouwd in de DRAM, waar een slechte rij permanent wordt vervangen door een bekende goede rij door elektrische zekering.
De daaropvolgende hertraining van het geheugen optimaliseert de "data-ogen" door de middelpunten opnieuw te kalibreren om ervoor te zorgen dat de geheugenbus op het hoogste niveau van signaalintegriteit werkt.
Voor herstelbare drempelgebeurtenissen waarbij de BIOS-instelling "Correctable Error Logging" is ingeschakeld, raadt Dell aan om tijdens gebeurtenissen met een geheugendrempel opnieuw op te starten volgens het normale onderhoudsschema van de klant om de geplande zelfherstel of zelfcorrectie van het geheugen mogelijk te maken. Na het opnieuw opstarten worden geslaagde of mislukte zelfherstelgebeurtenissen geregistreerd voor de bijbehorende DIMM's.
Als de BIOS-instelling "Correctable Error Logging" is uitgeschakeld, raadt Dell aan om opnieuw op te starten volgens het normale onderhoudsschema van de klant. Na het opnieuw opstarten worden alle geplande zelfherstelbewerkingen automatisch uitgevoerd. Het systeem registreert een gebeurtenis (MEM0805 of gebeurtenissen van het MEM7114-type) als de zelfherstellende/zelfcorrigerende bewerking niet is geslaagd en raadt verder aan de betreffende DIMM fysiek te vervangen.
Aanbeveling: Dell EMC Memory Engineering raadt PowerEdge Server klanten met oudere BIOS-versies (BIOS-releases van vóór maart 2022) aan om de BIOS-instelling "Correctable Error Logging" te wijzigen in Disabled. Dit elimineert de sporadische herstelbare geheugendrempelgebeurtenissen (zoals gebeurtenissen van het MEM0802- of MEM5104-type) in de serverinfrastructuur die aanbevelen dat de server opnieuw wordt opgestart om zelfherstel of zelfcorrectie mogelijk te maken. Zoals eerder vermeld, worden alle geplande zelfherstel- of zelfcorrectiebewerkingen automatisch uitgevoerd wanneer de server opnieuw wordt opgestart en worden eventuele storingen gemeld.
De BIOS-instelling "Correctable Error Logging" kan worden gewijzigd door de server opnieuw op te starten naar F2-instellingen of via de iDRAC GUI.
De BIOS-instelling wijzigen via F2-instellingen:
Start de servers opnieuw op en stop bij de F2-instellingen
Wijzig in de selectie BIOS-instellingen -> Geheugeninstellingen de optie "Correctable Error Logging" in uitgeschakeld.
Sla de BIOS-instellingen op en sluit de F2-instellingen af
U kunt de BIOS-instelling als volgt wijzigen met behulp van de iDRAC-gebruikersinterface:
Meld u aan bij de iDRAC-gebruikersinterface
Vouw onder Configuratie -> BIOS-instellingen het gedeelte Geheugeninstellingen uit
Wijzig de instelling "Correctable Error Logging" in uitgeschakeld
Klik op de knop Toepassen om de geheugeninstellingen op te slaan
Vergeet niet de knop Toepassen en opnieuw opstarten te selecteren (om onmiddellijk opnieuw op te starten) of Bij volgende keer opnieuw opstarten om de BIOS-wijzigingen toe te passen.
Bestaande aan geheugen gerelateerde KB-artikelen en whitepapers worden bijgewerkt om deze aanbevolen wijziging weer te geven.
OPMERKING: De goedgekeurde klantgerichte berichten zijn als bestand toegevoegd aan dit artikel - "Managing Correctable Error Notices Dec 2021 v1.pdf".
Dit artikel wordt bijgewerkt zodra er nieuwe informatie beschikbaar komt.