Article Number: 000053203
Neustále dochází k vylepšování a vylepšování systému BIOS serveru Dell PowerEdge s cílem zlepšit zasílání událostí paměti, zpracování chyb a "samostatnou opravu", ke které dochází při restartování serveru. Tím se zabrání nutnosti plánované údržby nebo přítomnosti na pracovišti kvůli výměně paměťového modulu DIMM DDR4, který zaznamenával chybové události.
Do serverů PowerEdge s pamětí DDR4 se systémem BIOS verze 2.1.x a novější byla implementována dvě hlavní vylepšení systému BIOS související se samostatnou opravou paměti. Tato vylepšení však mění doporučené kroky nebo akce, které je třeba provést, pokud dojde k událostem v paměti a jsou zaznamenány do protokolu LifeCycle.
Přeškolení paměti, ke kterému dochází při spouštění systému (v rané fázi konfigurace paměti), optimalizuje časování signálu a jeho marže pro každý modul DIMM / slot, aby byl zajištěn nejlepší přístup. Časování paměťového signálu a tolerance tolerance modulu DIMM se mohou v průběhu času měnit z několika různých důvodů:
Dříve vedlo zjištění aktualizací systému BIOS nebo změn konfigurace paměti k přeškolení paměti během následného spuštění. Počínaje systémem BIOS 2.1.x byly pro plánované přeškolení přidány další opravitelné a neopravitelné „spouštěče“ chyb paměti:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Všechny tyto chyby zaznamenané v protokolech SEL / LifeCycle mají za následek naplánování přeškolení paměti na další restartování (měkké nebo úplné). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Tato vícebitová chyba může vést k restartování serveru z důvodu závažné chyby, pokud operační systém nemůže tuto chybu zpracovat. Během spouštění systému se automaticky spustí přeškolení paměti. Pokud se vícebitová chyba vyskytne v nekritickém paměťovém umístění, které je operační systém schopen zpracovat, je nutné naplánovat restart.
Přeškolení paměti během testu POST může provést "samostatnou opravu" selhávajícího modulu DIMM a souvisejícího slotu optimalizací časování signálu a jeho marže. Pokud během spouštění nedošlo k selhání přeškolení paměti (UEFI0106) nebo pokud se stále vyskytují stejné chyby, výměna paměti DIMM v případě těchto chyb není nutná.
Druhým "samoopravným" vylepšením paměti je PPR. Nástroj PPR opraví vadné umístění paměti zakázáním umístění nebo adresy v hardwarové vrstvě, čímž místo toho povolí použití řádku záložní paměti. Přesný počet dostupných řádků záložní paměti závisí na velikosti zařízení DRAM a modulu DIMM.
Dříve byla tato funkce omezena na výrobní proces. Stejně jako u výše uvedeného přeškolení paměti existují určité opravitelné chyby paměti, které způsobí, že se oprava po zabalení naplánuje pro konkrétní slot DIMM na příští restart (měkký či úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy. Vzhledem k tomu, že oprava PPR je naplánována na konkrétním slotu DIMM, NEMĚŇTE umístění slotů DIMM, dokud se nespustí operace PPR. Příklady chyb:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jakákoli z těchto událostí v protokolech povede k tomu, že se oprava PPR naplánuje na příští restart (měkký nebo studený) na začátku fáze konfigurace paměti.
Po restartování ověřte, že byla operace PPR úspěšně provedena. Úspěšná operace PPR je podobná tomuto příkladu:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Nyní je k dispozici nově publikovaný dokument whitepaper (verze 1.0) popisující funkce spolehlivosti, dostupnosti a provozuschopnosti (RAS) související s pamětí serverů Dell PowerEdge, který popisuje různé funkce a možnosti RAS dostupné na serverech PowerEdge – chyby paměti a funkce RAS paměti serveru Dell EMC PowerEdge YX4X.
Další informace o opravitelných chybách překročení prahových hodnot naleznete v článku Servery 14G Intel a 15G Intel/AMD PowerEdge: Paměť DDR4: Správa opravitelných chyb překročení prahových hodnot.Aktualizace 24. dubna 2020
Společnost Dell nadále zlepšuje své možnosti "samostatné" opravy. Následující část obsahuje seznam aktualizací a vylepšení pro různé verze systému BIOS.
BIOS 2.1.x – Počáteční publikace článku o funkcích „samostatné“ opravy, které jsou k dispozici počínaje systémem BIOS verze 2.1.6, včetně vzorových chybových zpráv a doporučených akcí.
Změny systému BIOS 2.4.x a novějšího (prosinec 2019)
Změny systému BIOS 2.5.x a novějšího (únor 2020)
Aktualizace 10. července 2020
Změny systému BIOS verze 2.7.x a novější (Blok systému BIOS z července 2020 – cílený na polovinu července pro zveřejnění na webu)
AKTUALIZOVÁNO 13. ledna 2021
Změny systému BIOS verze 2.8.2 a novější (blok systému BIOS ze září 2020)
Pro budoucích aktualizace systému BIOS jsou vyhodnocována další vylepšení funkcí RAS.
Tento článek bude aktualizován, jakmile budou k dispozici nové informace.
Viz také: Pokyny pro odstraňování problémů pomocí výměny dílů – Odstraňování chyb paměti v systémech PowerEdge pomocí výměny
dílů Souboryke stažení a ovladače: Ovladače a soubory ke stažení | Dell, USA
VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
19 Apr 2024
15
Solution