跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: PowerEdge DIMM ECC corrigeerbare geheugenfouten

摘要: Dell 13G/14G-server vermeldt MEMXXXX-fouten in het gebeurtenislogboek van iDRAC. Deze gebeurtenis heeft er mogelijk voor gezorgd dat het knooppunt is vastgelopen of heeft geresulteerd in een computercontrole-uitzondering (MCE). Wat moet u doen? ...

本文适用于   本文不适用于 

症状



U hebt een 13G- of 14G-knooppunt dat MEM-fouten rapporteert in het gebeurtenislogboek van iDRAC.

Wat kunt u doen om het probleem op te lossen zonder hardware te vervangen of een gepland CE-bezoek?

Wat is DDR4 'zelfherstel'? 
Hoe veranderen deze mogelijkheden van DDR4-zelfherstel (BIOS-verbeteringen) de aanbevolen acties voor de klant en technische support wanneer er geheugenfouten optreden op een server?

Er zijn twee belangrijke geheugenverbeteringen voor zelfherstel in het BIOS die zijn geïmplementeerd voor PowerEdge servers met DDR4 waarop BIOS-versie 2.1.x en hoger wordt uitgevoerd. Deze uitbreidingen wijzigen de aanbevolen stappen/acties die moeten worden uitgevoerd als er geheugenfouten optreden die worden geregistreerd in de logboeken van vCenter, VxFM, dialhome of LifeCycle.

Opmerking: Als u geheugenfouten krijgt met DDR4 en u BIOS-versie 2.1.x of ouder gebruikt, moet u het BIOS bijwerken naar de laatste revisie om de geheugen-verbeteringen voor zelfherstel op te nemen.  Start vervolgens uw knooppunt opnieuw op om door te gaan met (PPR). Zie het gedeelte Oplossing voor meer informatie.

Opmerking: De huidige stappen voor probleemoplossing voor het geheugen omvatten het verplaatsen van defecte DIMM's naar een ander slot om te bevestigen of de fouten de DIMM wel of niet volgen of bij het DIMM-slot blijven.

Als op het 13G-knooppunt BIOS 2.8.x of hoger wordt uitgevoerd, is de eerste aanbevolen stap opnieuw opstarten (zonder DIMM's te verplaatsen naar een ander slot). Zo worden de nieuwe BIOS-verbeteringen uitgevoerd en de DIMM-fouten mogelijk verholpen (middels zelfherstel), zonder dat er DIMM-verplaatsingen nodig zijn.

Als op het 14G-knooppunt BIOS-versie 2.4.8 of hoger wordt uitgevoerd, is de eerste aanbevolen stap opnieuw opstarten (zonder DIMM's te verplaatsen naar een ander slot). Zo worden de nieuwe BIOS-verbeteringen uitgevoerd en de DIMM-fouten mogelijk verholpen (middels zelfherstel), zonder dat er DIMM-verplaatsingen nodig zijn.

原因

ECC-geheugenfouten worden in de meeste gevallen veroorzaakt door willekeurige alfadeeltjesbombardementen.  Alfadeeltjes maken deel uit van normale straling die elke dag voorkomt.  Af en toe zal een alfadeeltje een enkel elektron uit een geheugenmodule slaan en de data beschadigen.  Moderne geheugenmodules zijn ontworpen om deze gebeurtenis te herkennen en te repareren.  Elke module houdt een interne teller bij van hoe vaak een geheugenfout is gerepareerd.  Er is een drempelwaarde ingesteld in het BIOS die, wanneer deze wordt bereikt, de server waarschuwt dat het aantal geheugengebeurtenissen die drempel heeft overschreden.

解决方案

Voer een upgrade van het BIOS uit naar (2.8.x of hoger voor 13G) en (2.1.x of hoger voor 14G) om verbeteringen in geheugenvernieuwing in te schakelen voor servers met geïnstalleerd DDR4 RAM-geheugen - Geheugenvernieuwing die tijdens het opstarten plaatsvindt, optimaliseert de signaaltiming/marge voor elke DIMM/slot voor optimale toegang. Timing-kenmerken van een DIMM kunnen om verschillende redenen veranderen:

Voorbeelden zijn onder andere:
1. Wijzigingen in de geheugenconfiguratie van de server
2. BIOS-wijzigingen
3. Verschillende bedrijfstemperaturen van de server of DIMM
4. De algemene leeftijd van de DIMM

Voorheen zouden gedetecteerde BIOS-updates of wijzigingen in de geheugenconfiguratie hebben geresulteerd in geheugenvernieuwing tijdens de volgende opstartprocedure. Beginnend met BIOS 2.1.x (14G) en 2.8.x (13G), zijn aanvullende corrigeerbare en niet-corrigeerbare "triggers" toegevoegd voor geplande vernieuwing:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Als een van deze fouten wordt vastgelegd in de logboeken van VC-gebeurtenissen / dialhome / SEL / LifeCycle, wordt de geheugenvernieuwing ingepland voor de volgende keer opnieuw opstarten (warm of koud), en het BIOS zal automatisch een koude herstart forceren, ongeacht wat er wordt gestart.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001 leidt tot het opnieuw opstarten van de server vanwege de fatale fout. Geheugenvernieuwing wordt automatisch uitgevoerd tijdens de opstartprocedure.

Bij een van deze herstelbare of onherstelbare (multibit) geheugenfouten kan het vernieuwen van het geheugen bij het opnieuw opstarten zorgen voor "zelfherstel" van de defecte DIMM door de signaaltiming/marge voor elke DIMM-slot te optimaliseren. Het vervangen van DIMM is voor deze fouten niet nodig, tenzij de vernieuwing van het geheugen tijdens het opstarten niet werkt (UEFI0106) of als dezelfde fouten zich blijven voordoen.

2. Post Package Repair (PPR): De tweede zelfherstel-verbetering voor het geheugen leidt tot het herstellen van een defecte geheugenlocatie op een DIMM door de locatie/het adres uit te schakelen op de hardwarelaag, waardoor in plaats daarvan een reservegeheugen-rij wordt gebruikt. Het exacte aantal reservegeheugen-rijen dat beschikbaar is, is afhankelijk van het DRAM-apparaat en de DIMM-grootte.
Voorheen was deze functionaliteit beperkt tot het productieproces. Net als bij de verbeteringen van de geheugenvernieuwing die eerder werden vermeld, zijn er bepaalde herstelbare geheugenfouten die ervoor zorgen dat PPR op een specifiek DIMM-slot wordt ingepland voor de volgende keer opnieuw opstarten (warm of koud). Het BIOS forceert automatisch een koude herstart, ongeacht wat er wordt gestart. Omdat de PPR-bewerking is gepland op een specifiek DIMM-slot, moet u de locaties van de DIMM-slots NIET wijzigen totdat de PPR-bewerking is uitgevoerd. Voorbeelden van de fouten zijn:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Als een van de bovenstaande fouten wordt vastgelegd in de logboeken van VC-gebeurtenissen / dialhome / SEL / LifeCycle, wordt de PPR ingepland voor de volgende keert opnieuw opstarten (warm of koud).

Nadat de computer opnieuw is opgestart, controleert u of de PPR-bewerking met succes is uitgevoerd. Een voorbeeld van een geslaagde PPR-bewerking is vergelijkbaar met:

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Een DIMM-vervanging voor deze herstelbare geheugenfouten is niet nodig tenzij de PPR-bewerking na het opnieuw opstarten is mislukt. Een voorbeeld van een bericht bij een mislukte PPR:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

Opmerking: In een situatie waarin u bericht-ID MEM8000 (herstelbare geheugenfoutregistratie uitgeschakeld voor een geheugenapparaat op locatie DIMM_XX) tegenkomt die geïsoleerd optreedt (d.w.z. niet in een vergelijkbaar tijdsbestek), zonder overeenkomstige MEM0005 / MEM0701 / MEM0702-berichten, zal dit niet resulteren in een PPR die wordt ingepland voor de volgende herstart.

Bericht-ID MEM8000, geïsoleerd of met een overeenkomstige MCE (Machine Check Exception), is een indicatie van een algemene fout in de DIMM-module en is geen situatie waarin de herstelbare of niet-herstelbare emmers zullen overlopen. Dit type geheugengebeurtenis moet worden behandeld als een DIMM-fout en de vermelde DIMM-module moet door de klant zo snel mogelijk worden vervangen.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。