VxFlex-IR: PowerEdge DIMM-ECC-minnesfel som kan åtgärdas

详细文章

症状

原因

解决方案

其它信息

受影响的产品

提供反馈

摘要: Dell 13G/14G-servern publicerar MEMXXXX-fel i iDRAC-händelseloggen. Det här kan ha gjort att noden har hängt sig eller orsakat ett MCE-undantag (Machine Check Expection). Vad ska du göra? ...

本文适用于本文不适用于

查看适用于以下项的资源

症状

Du har en 13G- eller 14G-nod som rapporterar MEM-fel i iDRAC-händelseloggen.

Vad kan du göra för att lösa problemet utan att behöva byta maskinvara eller planera in ett CE-besök?

Vad är ”självkorrigering” av DDR4?
Hur ändrar de här DDR4-funktionerna för självkorrigering (BIOS-förbättringar) de rekommenderade åtgärderna för kunder och teknisk support när minnesfel uppstår på en server?

Det finns två huvudsakliga minnesrelaterade BIOS-förbättringar med självkorrigering som implementerats för PowerEdge-servrar med DDR4 som kör BIOS version 2.1.x och senare. Dessa förbättringar ändrar de rekommenderade steg/åtgärder som ska vidtas om minnesfel inträffar och loggas i vCenter-, VxFM-, Dial Home- eller livscykelloggen.

Obs! Om du får minnesfel med DDR4 och kör en BIOS-version som är äldre än BIOS 2.1.x ska du uppdatera BIOS till den senaste versionen så att förbättringar av självkorrigering av minnet inkluderas. Starta sedan om noden för att fortsätta med (PPR) Mer information finns i avsnittet Lösning

Obs! I de aktuella stegen för felsökning av minne ingår det att flytta DIMM-kort med fel till en annan kortplats för att kontrollera om felen ligger hos DIMM-kortet eller DIMM-kortplatsen.

Om 13G-noden kör BIOS 2.8.x eller senare är det första rekommenderade steget att göra en omstart (utan att flytta DIMM-kort till en annan kortplats). Om de nya BIOS-förbättringarna körs kan DIMM-felen eventuellt åtgärdas (självkorrigeras) utan att DIMM-kort behöver bytas ut.

Om 14G-noden kör BIOS-version 2.4.8 eller senare är det första rekommenderade steget att göra en omstart (utan att flytta DIMM-kort till en annan kortplats). Om de nya BIOS-förbättringarna körs kan DIMM-felen eventuellt åtgärdas (självkorrigeras) utan att DIMM behöver bytas ut.

原因

ECC-minnesfel orsakas i de flesta fall av slumpmässigt avgivna alfapartiklar. Alfapartiklar ingår i den strålning som förekommer normalt. Ibland kan en alfapartikel slå ut en enskild elektron från en minnesmodul vilket skadar data. Moderna minnesmoduler är utformade för att känna igen dessa händelser och reparera dem. Varje modul registrerar hur många gånger den har reparerat ett minnesfel. Ett tröskelvärde ställs in i BIOS och en varning skickas till servern om antalet minneshändelser överskrider det tröskelvärdet.

解决方案

Uppgradera BIOS till (2.8.x eller senare för 13G) och (till 2.1.x eller senare för 14G) för att aktivera återinlärningsförbättringar för servrar med DDR4 RAM installerat. Återinlärning vid start optimerar signalens tidpunkt/gräns för varje DIMM-kort/kortplats för bästa åtkomst. Tidsegenskaperna för en DIMM-modul kan ändras av flera olika anledningar.

Till exempel:
1. Ändringar i serverns minneskonfiguration
2. BIOS-ändringar
3. Olika drifttemperaturer för servern eller DIMM
4. Allmän ålder på DIMM

Tidigare resulterade BIOS-uppdateringar eller minneskonfigurationer som upptäcktes i att en återinlärning uppstod vid efterföljande start. Från och med BIOS 2.1.x (14G) och 2.8.x (13G) har ytterligare utlösare för korrigerbara och icke korrigerbara minnesfel lagts till för schemalagd återinlärning:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Alla de ovanstående fel som loggas i loggarna för VC-händelser/Dial Home/SEL/livscykel leder till att återinlärning schemaläggs till nästa omstart (varm eller kall) och BIOS tvingar automatiskt fram en kall omstart oavsett vad som initierats.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001 leder till att servern startas om på grund av det allvarliga felet. Återinlärning utförs automatiskt under starten.

Dessa korrigerbara eller icke-korrigerbara (multi-bit) minnesfel leder till att återinlärning vid omstart kan självkorrigera felaktig DIMM genom att optimera signalens tidpunkt/gräns för vardera DIMM/kortplats. Det är inte nödvändigt att byta DIMM på grund av dessa fel såvida inte återinlärningen misslyckas (UEFI0106) under start eller samma fel inträffar igen.

2. Post Package Repair (PPR) – med den andra självkorrigerande minnesförbättringen repareras felaktig minnesplats på en DIMM genom att platsen/adressen avaktiveras i maskinvarulagret, vilket gör att en extra minnesrad används istället. Det exakta antalet tillgängliga extra minnesrader beror på DRAM-enheten och DIMM-storleken.
Tidigare var den här funktionen begränsad till tillverkningsprocessen. Precis som de förbättringar av återinlärning som nämndes tidigare finns vissa korrigerbara minnesfel som leder till att PPR schemaläggs för en viss DIMM-kortplats för nästa omstart (varm eller kall). BIOS tvingar automatiskt fram en kallstart oberoende av vad som startas. Eftersom PPR-åtgärden schemaläggs för en viss DIMM-kortplats ska du INTEbyta DIMM-kortplats förrän PPR-åtgärden slutförts. Exempel på felmeddelandena är:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Om något av ovanstående fel loggas i loggarna för VC-händelser/Dial Home/SEL/livscykel leder det till att PPR schemaläggs till nästa omstart (varm eller kall).

Efter omstart kontrollerar du att PPR-åtgärden slutfördes som den ska. Ett exempel på ett meddelande om en utförd PPR-åtgärd ser ut ungefär så här:

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Det är inte nödvändigt att byta ut DIMM för dessa korrigerbara minnesfel såvida inte PPR-åtgärden misslyckas efter omstart. Ett exempel på ett meddelande om ej utförd PPR är:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

Obs! I en situation där meddelande-ID MEM8000 (loggning av korrigerbara minnesfel är avaktiverat för en minnesenhet på plats DIMM_XX) visas separat (dvs. inte inom en liknande tidsram) från ett motsvarande MEM0005/MEM0701/MEM0702-meddelande, leder det inte till att en PPR schemaläggs till nästa omstart.

Meddelande-ID MEM8000 på egen hand eller med ett motsvarande MCE-undantag (machine check exception) visar på ett allmänt fel på DIMM-modulen och är inte en situation i vilken de korrigerbara eller icke korrigerbara bucketarna först blir överfulla. Den här typen av minneshändelse ska behandlas som ett DIMM-fel och den angivna DIMM-modulen bör bytas ut så snart som möjligt.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family

文章编号: 000058157

文章类型: Solution

上次修改时间: 15 4月 2021

版本: 4

VxFlex-IR: PowerEdge DIMM-ECC-minnesfel som kan åtgärdas

摘要: Dell 13G/14G-servern publicerar MEMXXXX-fel i iDRAC-händelseloggen. Det här kan ha gjort att noden har hängt sig eller orsakat ett MCE-undantag (Machine Check Expection). Vad ska du göra? ...

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

欢迎

欢迎访问戴尔

VxFlex-IR: PowerEdge DIMM-ECC-minnesfel som kan åtgärdas

摘要: Dell 13G/14G-servern publicerar MEMXXXX-fel i iDRAC-händelseloggen. Det här kan ha gjort att noden har hängt sig eller orsakat ett MCE-undantag (Machine Check Expection). Vad ska du göra? ... 扩大查看范围 缩小查看范围

详细文章

症状

原因

解决方案

其它信息

受影响的产品

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

摘要: Dell 13G/14G-servern publicerar MEMXXXX-fel i iDRAC-händelseloggen. Det här kan ha gjort att noden har hängt sig eller orsakat ett MCE-undantag (Machine Check Expection). Vad ska du göra? ...