Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Servery 14. generace Intel a 15. generace Intel / AMD PowerEdge: Paměť DDR4: Správa opravitelných chyb překročení prahových hodnot

Summary: Aktualizovaná doporučení pro zákazníky při správě opravitelných chyb překročení prahových hodnot chyb (MEM0802 nebo MEM5104) v modulech RDIMM nebo LRDIMM DDR4 nainstalovaných v serverech PowerEdge 14G a 15G s procesory Intel a také v serverech PowerEdge 15G s procesory AMD. Poznámka: Tento článek se netýká serverů PowerEdge založených na procesorech 14. generace AMD, jako jsou platformy 64x5 nebo 74x5, protože tyto servery tuto funkci opravy po zabalení / automatické opravy nemají, i když ji samotný modul DIMM podporuje. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Prostřednictvím vývoje funkcí RAS (spolehlivost, dostupnost a servisovatelnost) v pamětech podnikové třídy zaujala společnost Dell konzervativní přístup k zasílání zpráv o chybách, aby byla zajištěna transparentnost pro naše zákazníky. Spolu s tímto vývojem se mění i přístup společnosti Dell k zasílání zpráv o chybách, který umožňuje zaměřit se na oznámení, která vyžadují naléhavější reakci, oproti oznámením, která mají primárně informativní charakter.

Vzhledem k tomu, že se geometrie pamětí na bázi DRAM stále zmenšují a poskytují zákazníkům vyšší požadovaný výkon, očekává se, že přirozenou součástí jednotného škálování bude rostoucí počet opravitelných chyb.

Cause

V celosvětovém serverovém odvětví stále více převládá názor, který sdílí i společnost Dell, že určité opravitelné chyby u každého modulu DIMM jsou nevyhnutelné a nevyžadují výměnu paměťového modulu nebo dokonce okamžitý restart pro zahájení samostatné opravy.

Resolution

Pokračování v provozu systému hlásícího opravitelné chyby bez restartování do režimu Self-Heal významně nezvyšuje riziko výskytu neopravitelných chyb, které mohou vést k neplánovaným prostojům. Ve skutečnosti jiní v oboru veřejně sdělili, že jejich manipulace s pamětí nehlásí opravitelné chyby.

V systému BIOS pro servery Intel PowerEdge 14G verze 2.5.4 a novějších bylo přidáno nastavení systému BIOS s názvem "Correctable Error Logging", které zákazníkům umožňuje zakázat opravitelné chybové zpravodaje, pokud se tak rozhodnou – a mnoho z nich to udělalo.  Systém BIOS bude i nadále plánovat automatické opravy opravitelných prahových událostí i bez protokolování. Tato naplánovaná samooprava proběhne automaticky během následného restartování systému.

Aby bylo možné lépe reagovat na situaci v odvětví a na základě zpětné vazby od zákazníků, aktualizace systému BIOS společnosti Dell PowerEdge změní od března 2022 výchozí nastavení systému BIOS "Correctable Error Logging" na zakázané.  Tuto možnost systému BIOS lze znovu povolit pro zákazníky, kteří chtějí i nadále zobrazovat opravitelné události limitu paměti. Verze systému BIOS, které zahrnují tuto změnu nastavení systému BIOS, jsou:
  • Platformy Intel 14G – BIOS verze 2.13.3 nebo novější
  • Platformy AMD 15G – BIOS verze 2.6.5 nebo novější
  • Platformy Intel 15G – BIOS verze 1.5.5 nebo novější.

Výhody automatické obnovy DDR4 DIMM po restartu systému:
  • Povolí opravu modulu DIMM DDR4 bez odebrání ze systému. Všechny moduly DDR4 DIMM od společnosti Dell podporují funkci cache self-heal. Poznámka – Servery PowerEdge 14G AMD tuto funkci samostatné opravy nemají.
  • Využívá dostupné náhradní řádky navržené do paměti DRAM, kde je chybná řada trvale nahrazena známou funkční řadou elektrickým jištěním.
  • Následné přeškolení paměti optimalizuje "datové oči" rekalibrací středových bodů, aby bylo zajištěno, že paměťová sběrnice pracuje na nejvyšší úrovni integrity signálu.


Pokud dojde k událostem prahové hodnoty paměti s povoleným nastavením "Correctable Error Logging" v systému BIOS, společnost Dell doporučuje restartovat počítač podle plánu pravidelné údržby zákazníka, aby bylo možné provést naplánovanou automatickou opravu nebo opravu paměti. Po restartování se u souvisejících modulů DIMM zaprotokolují úspěšné nebo neúspěšné události samostatné opravy.

Vzhledem k tomu, že nastavení systému BIOS "Correctable Error Logging" je vyřešeno, společnost Dell doporučuje restartovat systém podle plánu pravidelné údržby zákazníka. Po restartování se automaticky spustí všechny naplánované samoopravné operace. Pokud byla operace samostatného zotavení / korekce neúspěšná, systém zaznamená událost (události typu MEM0805 nebo MEM7114) a dále doporučí fyzicky vyměnit dotčený modul DIMM.

Doporučení:
Technické oddělení pamětí společnosti Dell EMC doporučuje zákazníkům serverů PowerEdge se staršími verzemi systému BIOS (před vydáním systému BIOS z březnového bloku 2022) změnit nastavení systému BIOS "Correctable Error Logging" na hodnotu Disabled. Tím se eliminují občasné opravitelné události prahu paměti (například události typu MEM0802 nebo MEM5104) v infrastruktuře serveru, které doporučují restartování serveru, aby bylo možné provést samostatnou opravu nebo opravu. Jak již bylo zmíněno dříve, všechny naplánované operace automatické opravy a nápravy se spustí automaticky při restartování serveru a budou hlášeny všechny chyby.
 

Nastavení systému BIOS "Correctable Error Logging" lze změnit restartováním serveru do nastavení F2 nebo pomocí grafického uživatelského rozhraní řadiče iDRAC.
 

Změna nastavení systému BIOS pomocí nabídky Nastavení F2:

  • Restartujte servery a zastavte se na nastavení F2.
  • Ve výběrové volbě BIOS Settings –> Memory Settings změňte nastavení "Correctable Error Logging" na hodnotu Disabled.
  • Uložte nastavení systému BIOS a ukončete nastavení klávesy F2.

Změna nastavení systému BIOS pomocí grafického uživatelského rozhraní řadiče iDRAC:

  • Přihlaste se do grafického uživatelského rozhraní řadiče iDRAC.
  • V části Configuration -> BIOS Settings rozbalte část Memory Settings.
  • Změňte nastavení "Protokolování opravitelné chyby" na hodnotu zakázáno.
  • Kliknutím na tlačítko Apply uložíte nastavení paměti.
  • Nezapomeňte vybrat tlačítko Apply and Reboot (pro okamžitý restart) nebo At Next Reboot pro použití změn systému BIOS.


Stávající články znalostní databáze a dokumenty whitepaper související s pamětí budou aktualizovány tak, aby odrážely tuto doporučenou změnu.

POZNÁMKA: Schválené zprávy pro zákazníky jsou připojeny jako soubor k tomuto článku – "Správa opravitelných oznámení o chybách, prosinec 2021 v1.pdf".

Tento článek bude aktualizován, jakmile budou k dispozici nové informace.

Affected Products

AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...

Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Article Properties
Article Number: 000194574
Article Type: Solution
Last Modified: 10 Feb 2022
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.