跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: PowerEdge DIMM ECC, korrigerbare hukommelsesfejl

摘要: Dell 13G/14G-server bogfører MEMXXXX fejl i iDRAC-hændelseslogfilen. Denne begivenhed kan have medført, at noden hænger sig eller har resulteret i en maskinkontrolundtagelse. Hvad skal du gøre? ...

本文适用于   本文不适用于 

症状



Du har en 13G- eller 14G-node, som rapporterer fejl i iDRACs-hændelsesloggen.

Hvad kan du gøre for at løse problemet uden hardwareudskiftning eller CE-planlagt besøg.

Hvad er DDR4's "selvreparation"? 
Hvordan ændrer disse "selvreparerende" DDR4-funktioner (BIOS-forbedringer) de anbefalede handlinger for kunde og teknisk support, når der opstår hukommelsesfejl på en server?

Der er to primære hukommelsesrelaterede, "selvreparerende" BIOS-forbedringer, som blev implementeret for PowerEdge-servere med DDR4, der kørte BIOS-version 2.1.x og nyere. Disse forbedringer ændrer de anbefalede trin/handlinger, der skal udføres, hvis der opstår hukommelsesfejl, og de logføres i vCenter-, VxFM-, dial home- eller i LifeCycle-logfilen.

Bemærk: Hvis du får hukommelsesfejl med DDR4, og du kører en BIOS-version, der er ældre end 2.1.x, skal du opdatere din BIOS til den nyeste version, som omfatter hukommelsesselvreparerende forbedringer.  Genstart derefter din node for at fortsætte med (PPR). Se løsningsafsnittet for yderligere oplysninger

Bemærk: De aktuelle trin for fejlfinding af hukommelsen omfatter flytning af fejlbehæftede DIMM'er til en anden slot for at se, om fejlene følger efter DIMM'en eller forbliver på DIMM-slotten.

Hvis 13G-noden kører BIOS 2.8.x eller højere, er det første anbefalede trin en genstart (uden flytning af DIMM'er til en anden slot). Dette giver de nye BIOS-forbedringer mulighed for at køre og løser (selvreparerer) eventuelt DIMM-fejlene uden at skulle udskifte DIMM-moduler.

Hvis 14G-noden kører BIOS-version 2.4.8 eller højere, er det første anbefalede trin en genstart (uden flytning af DIMM'er til en anden slot). Dette giver de nye BIOS-forbedringer mulighed for at køre og eventuelt løse (selvreparerer) DIMM-fejlene uden at skulle udskifte DIMM-moduler.

原因

ECC-hukommelsesfejl er i de fleste tilfælde forårsaget af et vilkårligt bombardement af alfapartikler.  Alfapartikler er en del af den normale stråling, som forekommer hver dag.  En gang i mellem vil en alfapartikel skyde en enkelt elektron væk fra et hukommelsesmodul, så dataene ødelægges.  Moderne hukommelsesmoduler er designet til at genkende sådan en hændelse og reparere den.  Hvert modul opbevarer en intern tæller af, hvor mange gange der er blevet repareret en hukommelsesfejl.  Der er angivet en grænse i BIOS, som, når den er nået, advarer serveren om, at antallet af hukommelseshændelser har overskredet den pågældende grænse.

解决方案

Opgrader BIOS til (2.8. x eller højere til 13G) og (2.1.x eller højere til 14G) for at aktivere forbedret omskoling af hukommelse for servere med DDR4 RAM installeret. Omskoling af hukommelse, der udføres under opstart, optimerer signaltimingen/-margenen for hver DIMM/slot for at opnå bedst mulig adgang. En DIMMs timingegenskaber kan ændres af forskellige årsager:

Eksemplerne omfatter, men er ikke begrænset til:
1. Ændringer i serverens hukommelseskonfiguration
2. BIOS-ændringer
3. Anden driftstemperatur i serveren eller DIMM-modulet
4. DIMM-modulets generelle alder

Tidligere resulterede registrerede BIOS-opdateringer eller ændringer af hukommelseskonfiguration i en omskoling af hukommelsen, som udførtes under den efterfølgende opstart. Fra og med BIOS 2.1.x (14G) og 2.8.x (13G) er der blevet tilføjet ekstra korrigerende og ikke-korrigerbare hukommelsesfejl "udløsere" til planlagt omskoling:

Advarsel – MEM0701 – "Hukommelsesfejlrate, som kan rettes, er overskredet for DIMM_XX."
Kritisk – MEM0702 – "rettelses fejls hastighed overskred for DIMM_XX."
Kritisk – MEM0005 – "Grænsen for vedvarende hukommelsesfejlrate, som kan rettes, er nået for en hukommelsesenhed på placeringen/-erne XX."

Alle ovenstående fejl, der er registreret i VC-hændelses-/ dial home-/ SEL- /LifeCycle-logfiler, vil resultere i, at der planlægges en omskoling af hukommelsen ved næste genstart (varm eller kold), BIOS gennemtvinger automatisk en kold genstart, uanset hvad der påbegyndes.

Kritisk MEM0001 – "Multi-bit-hukommelsesfejl registreret på hukommelsesenhed på placeringen/-erne DIMM_XX."

MEM0001 resulterer i genstart af serveren på grund af den alvorlige fejl. En omskoling af hukommelsen udføres automatisk under denne opstart.

Med en af disse hukommelsesfejl (multi-bit), der kan eller ikke kan rettes, kan den deraf følgende omskoling af hukommelsen ved genstart eventuelt "selvreparere" det fejlbehæftede DIMM-modul ved at optimere signaltimingen/-margenen for hvert DIMM-modul/-stik. En udskiftning af DIMM-modul er ikke nødvendig i forbindelse med disse fejl, medmindre omskolingen af hukommelsen mislykkes (UEFI0106) under opstart, eller hvis de samme fejl fortsat opstår.

2. Reparation efter pakke (PPR) – den anden "selvreparerende" hukommelsesforbedring omfatter reparation af en defekt hukommelsesplacering på et DIMM-modul ved at deaktivere placeringen/adressen på hardwarelaget og muliggør brug af en reservehukommelsesrække i stedet for. Det nøjagtige antal reservehukommelsesrækker afhænger af DRAM-enhedens og DIMM-modulets størrelse.
Tidligere var denne funktionalitet begrænset til produktions processen. På samme måde som med de ovenfor nævnte forbedringer vedrørende omskoling af hukommelsen er der visse hukommelsesfejl, som kan rettes, der medfører, at PPR planlægges på et bestemt DIMM-modulstik ved næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der påbegyndes. Da PPR-handlingen planlægges på et bestemt DIMM-modulstik, MÅ DU IKKE ændre DIMM-modulstikplaceringer, før PPR-handlingen er blevet kørt. Nogle eksempler på fejlene er:

Advarsel – MEM0701 – "Hukommelsesfejlrate, som kan rettes, er overskredet for DIMM_XX."
Kritisk – MEM0702 – "Hukommelsesfejlrate er overskredet for DIMM_XX."
Kritisk – MEM0005 – "Grænsen for vedvarende hukommelsesfejlrate, som kan rettes, er nået for en hukommelsesenhed på placeringen/-erne XX."

Alle ovenstående fejl, der er registreret i VC-hændelses-/ dial home-/ SEL- /LifeCycle-logfiler, vil resultere i, at der planlægges en reparation efter pakke ved næste genstart (varm eller kold)

Efter genstart skal du verificere, at PPR-handlingen er blevet gennemført. Et eksempel på en vellykket PPR-handling svarer til:

Meddelelses-id MEM9060 – "Reparation efter pakke-handlingen er blevet gennemført på den DIMM-enhed (Dual In-line Memory Module), der fejlede tidligere".
Det er ikke nødvendigt at udskifte DIMM-modulet i forbindelse med disse hukommelsesfejl, som kan rettes, medmindre PPR-handlingen mislykkes efter genstart. Et eksempel på en meddelelse om mislykket PPR er:
Kritisk – meddelelses-id UEFI0278 – "Kan ikke gennemføre PPR-handling (reparation efter pakke) pga. et problem i DIMM-hukommelsesstik X."

其他信息

Bemærk: Hvis du støder på meddelelses-id MEM8000 (registrering af korrigerbare hukommelsesfejl deaktiveret for en hukommelsesenhed på placeringen DIMM_XX), som vises i isolation (dvs. ikke i en tilsvarende tidsramme) fra alle tilsvarende MEM0005/MEM0701/MEM0702-meddelelser, vil det ikke resultere i, at en PPR planlægges til næste genstart.

Meddelelses-id MEM8000 i isolation eller med en tilsvarende MCE (maskinkontrolundtagelse) er en indikation på en generel fejl i DIMM-modulet og er ikke en situation, hvor de korrigerbare eller ikke-korrigerbare filsæt i udgangspunktet vil blive overfyldte. Denne type hukommelseshændelse skal behandles som en DIMM-fejl, og det anførte DIMM-modul bør udskiftes, så snart kunden har mulighed for det.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。