跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: Opravitelné chyby paměti PowerEdge DIMM ECC

摘要: Server Dell 13G/14G zapisuje do protokolu událostí řadiče iDRAC chyby MEMXXXX. Tato událost mohla způsobit zamrznutí uzlu nebo vedla k výjimce Machine Check Exception. Co je třeba udělat? ...

本文适用于   本文不适用于 

症状



Uzel serveru 13G či 14G zapisuje do protokolu událostí řadiče iDRAC chyby MEM.

Jak lze problém vyřešit, aniž by bylo nutné vyměnit hardware nebo naplánovat návštěvu v rámci CE.

Co je samostatná oprava paměti DDR4? 
Jak tyto funkce samostatné opravy paměti DDR4 (rozšíření systému BIOS) mění doporučené akce pro zákazníky a technickou podporu, když v serveru dochází k chybám paměti?

Do serverů PowerEdge s pamětí DDR4 se systémem BIOS verze 2.1.x a novější byla implementována dvě hlavní rozšíření systému BIOS související se samostatnou opravou paměti. Tato rozšíření mění doporučené kroky/akce, které je třeba provést, pokud dojde k chybám paměti a k jejich zaznamenání do protokolu vCenter, VxFM, Dial Home nebo LifeCycle.

Poznámka: Pokud dochází k chybám pamětí DDR4 a používáte systém BIOS verze starší než 2.1.x, aktualizujte systém BIOS na nejnovější verzi, která obsahuje funkci samostatné opravy paměti.  Poté restartujte uzel a pokračujte s opravou PPR. Další podrobnosti naleznete v části Řešení.

Poznámka: Aktuální kroky pro odstraňování problémů s pamětí zahrnují přesunutí selhávajících modulů DIMM do jiného slotu, aby bylo možné ověřit, zda se chyby týkají samotných modulů DIMM či jejich slotu.

Pokud je v uzlu 13G spuštěn systém BIOS verze 2.8.x nebo vyšší, jako první se doporučuje uzel restartovat (aniž byste přesunuli moduly DIMM do jiného slotu). Tak se mohou spustit nová rozšíření systému BIOS a potenciálně vyřešit (samostatnou opravou) chyby modulů DIMM, aniž by bylo nutné moduly vyměnit.

Pokud je v uzlu 14G spuštěn systém BIOS verze 2.4.8 nebo vyšší, jako první se doporučuje uzel restartovat (aniž byste moduly DIMM přesunuli do jiného slotu). Tak se mohou spustit nová vylepšení systému BIOS a potenciálně vyřešit (samostatnou opravou) chyby modulů DIMM, aniž by bylo nutné moduly vyměnit.

原因

Chyby paměti ECC jsou ve většině případů způsobeny náhodným působením částic alfa.  Částice alfa jsou součástí normálního každodenního záření.  Někdy se částicím alfa podaří srazit z paměťového modulu jediný elektron, což vede k poškození dat.  Moderní paměťové moduly dokáží tuto událost rozpoznat a opravit.  Každý modul je vybaven interním čítačem, který sleduje, kolikrát byl opraven problém s pamětí.  V systému BIOS je nastavena prahová hodnota počtu událostí paměti, která po dosažení upozorní server na to, že byla překročena.

解决方案

Upgradujte systém BIOS na verzi 2.8.x nebo vyšší pro servery 13G a 2.1.x nebo vyšší pro servery 14G, aby bylo možné vylepšit přeškolení paměti pro servery s nainstalovanou pamětí DDR4 RAM – přeškolení paměti, ke kterému dochází při spouštění, optimalizuje časování signálu/jeho marže pro každý modul DIMM/slot, což zajišťuje co nejlepší přístup. Charakteristiky časování modulu DIMM se mohou změnit z několika různých důvodů:

Mezi příklady patří zejména:
1. Změny v konfiguraci paměti serveru
2. Změny v systému BIOS
3. Různé provozní teploty serveru či modulu DIMM
4. Celkové stáří modulu DIMM

Dříve vedlo zjištění aktualizací systému BIOS nebo změn konfigurace paměti k přeškolení paměti během následného spuštění. Počínaje systémem BIOS verze 2.1.x (14G) a 2.8.x (13G) byly přidány další „spouštěče“ opravitelných a neopravitelných chyb paměti pro plánované přeškolování:

Warning – MEM0701 – „Correctable memory error rate exceeded for DIMM_XX.“
Critical – MEM0702 – „Correctable memory error rate exceeded for DIMM_XX.“
Critical – MEM0005 – „Persistent correctable memory error limit reached for a memory device at location(s) XX.“

Všechny výše uvedené chyby zaznamenané v protokolech událostí VC/Dial Home/SEL/LifeCycle způsobí, že se přeškolení paměti naplánuje na příští restart (měkký nebo úplný) – systém BIOS automaticky provede úplný restart bez ohledu na spuštěné aplikace.

Critical – MEM0001 – „Multi-bit memory errors detected on memory device at location(s) DIMM_XX.“

Chyba MEM0001 vede k restartování serveru kvůli závažnému selhání. Během tohoto spuštění se paměť automaticky přeškolí.

Při výskytu těchto opravitelných či neopravitelných (vícebitových) chyb paměti může přeškolená paměť při restartu provést „samostatnou opravu“ selhávající paměti DIMM pomocí optimalizace časování signálu/jeho marže pro každý modul DIMM/slot. Pokud během spouštění nedošlo k selhání přeškolení paměti (UEFI0106) nebo pokud se stále vyskytují stejné chyby, výměna paměti DIMM v případě těchto chyb není nutná.

2. Oprava po zabalení (PPR) – Druhé rozšíření „samostatné opravy“ paměti zakáže v hardwarové vrstvě umístění/adresy a místo toho použije řádek záložní paměti, čímž umožní opravit vadné paměťové umístění v modulu DIMM. Přesný počet dostupných řádků záložní paměti závisí na velikosti zařízení DRAM a modulu DIMM.
Dříve byla tato funkce omezena na výrobní proces. Stejně jako u výše uvedeného přeškolení paměti existují určité opravitelné chyby paměti, které způsobí, že se oprava po zabalení naplánuje pro konkrétní slot DIMM na příští restart (měkký či úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy. Vzhledem k tomu, že oprava PPR je naplánována na konkrétním slotu DIMM, NEMĚŇTE umístění slotů DIMM, dokud se nespustí operace PPR. Příklady chyb:

Warning – MEM0701 – „Correctable memory error rate exceeded for DIMM_XX.“
Critical – MEM0702 – „Correctable memory error rate exceeded for DIMM_XX.“
Critical – MEM0005 – „Persistent correctable memory error limit reached for a memory device at location(s) XX.“

Všechny výše uvedené chyby zaznamenané v protokolech událostí VC/Dial Home/SEL/LifeCycle způsobí, že se přeškolení paměti naplánuje na příští restart (měkký nebo úplný).

Po restartování ověřte, zda byla operace PPR provedena úspěšně. Příklad úspěšné operace PPR:

Message ID MEM9060 – „The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier.“
Výměna paměti DIMM v případě těchto opravitelných chyb není nutná, pokud po restartování nedojde k selhání operace PPR. Příklad zprávy o selhání operace PPR:
Critical – Message ID UEFI0278 – „Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X.“

其他信息

Poznámka: V situaci, kdy se zobrazí zpráva s ID MEM8000 (zakázání protokolování chyb paměti pro paměťové zařízení v umístění DIMM_XX – opravitelné) v izolovaném stavu (tj. nenachází se v podobném časovém rámci) u libovolné příslušné zprávy MEM0005/MEM0701/MEM0702, nedojde k naplánování PPR pro příští restart.

Zpráva s ID MEM8000 v izolovaném stavu nebo u odpovídající výjimky MCE (Machine Check Exception) je známkou obecného selhání modulu DIMM a nejedná se o situaci, kdy by došlo k počátečnímu zahlcení opravitelných či neopravitelných kbelíků. S tímto typem události paměti je třeba zacházet jako v případě selhání paměti DIMM. Uvedený modul DIMM je proto třeba co nejdříve vyměnit.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。