跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: Korrigerbare ECC-minnefeil på PowerEdge-DIMM

摘要: Dell 13G-/14G-serveren registrerer MEMXXXX-feil i iDRAC-hendelsesloggen. Denne hendelsen kan ha forårsaket at noden henger eller resultert i et maskinkontrollunntak. Hva bør du gjøre?

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状



Du har en 13G- eller 14G-node som rapporterer MEM-feil i iDRAC-hendelsesloggen.

Hva kan du gjøre for å løse problemet uten å skifte ut maskinvare eller avtale et CE-besøk.

Hva er "selvreparasjon" av DDR4? 
Hvordan kan DDR4-egenskapene for "selvreparasjon" (BIOS-utvidelser) endre de anbefalte tiltakene for kunden og teknisk støtte når det oppstår minnefeil på en server?

Det ble implementert to BIOS-utvidelser for "selvreparasjon" av hovedminne for PowerEdge-servere med DDR4 som kjører BIOS-versjon 2.1.x og nyere. Disse utvidelsene endrer de anbefalte fremgangsmåtene/tiltakene dersom minnefeil oppstår og blir logget i vCenter-loggen, VxFM-loggen, Dial home-loggen eller LifeCycle-loggen.

Merk: Hvis det oppstår minnefeil med DDR4, og du kjører en BIOS-versjon som er eldre enn 2.1.x, bør du oppdatere BIOS til den nyeste revisjonen for å inkludere utvidelsene med selvreparasjon av minne.  Start deretter på nytt for å fortsette med (PPR). Se Løsning-delen for mer informasjon

Merk: Gjeldende fremgangsmåte for feilsøking av minne inkluderer å flytte sviktende DIMM-er til et annet spor for å sjekke om feilene følger DIMM-en eller blir værende i DIMM-sporet.

Hvis 13G-noden kjører BIOS 2.8.x eller nyere, er det første anbefalte trinnet å utføre en omstart (uten å flytte DIMM-er til et annet spor). Hvis du tillater kjøring av de nye BIOS-utvidelsene, kan det hende at dette løser DIMM-feilene (selvreparasjon) uten behov for DIMM-utskiftinger.

Hvis 14G-noden kjører BIOS-versjon 2.4.8 eller nyere, er det første anbefalte trinnet å utføre en omstart (uten å flytte DIMM-ene til et annet spor). Hvis du tillater kjøring av de nye BIOS-forbedringene, kan det være at det løser (selvreparerer) DIMM-feilene uten at man trenger noen DIMM-erstatninger.

原因

ECC-minnefeil skyldes i de fleste tilfeller vilkårlig bombardering av alfapartikler.  Alfapartikler er en del av den normale strålingen som forekommer hver dag.  Av og til kan det hende at en alfapartikkel slår ut ett enkelt elektron i en minnemodul, slik at dataene blir ødelagt.  Moderne minnemoduler er utformet for å gjenkjenne denne hendelsen og reparere modulene.  Hver modul har en intern teller som registrerer hvor mange ganger den har rettet opp en minnefeil.  En grense er angitt i BIOS. Når denne nås, blir serveren varslet om at antallet minnehendelser har overskredet grensen.

解决方案

Oppgrader BIOS (til 2.8.x eller nyere for 13G, 2.1.x eller nyere for 14G) for å muliggjøre gjenopplæring av minne for servere som har DDR4 RAM installert – gjenopplæring av minne skjer under oppstart og optimaliserer signaltidsberegningen/-marginen for hver DIMM / hvert spor for best mulig tilgang. Tidsberegningsegenskapene til en DIMM kan endres av flere forskjellige årsaker:

Eksempler inkluderer, men er ikke begrenset til følgende:
1. Endringer i serverens minnekonfigurasjon
2. BIOS-endringer
3. Forskjellige driftstemperaturer på serveren eller DIMM-en
4. Den generelle alderen til DIMM-en

Når BIOS-oppdateringer eller minnekonfigurasjonsendringer ble oppdaget tidligere, førte det til gjenopplæring av minnet under neste oppstart. Fra og med BIOS 2.1.x (14G) og 2.8.x (13G) ble flere "triggere" for korrigerbare og ukorrigerbare minnefeil lagt til for planlagt gjenopplæring:

Advarsel – MEM0701 – "Correctable memory error rate exceeded for DIMM_XX" (Antallet korrigerbare minnefeil er overskredet for DIMM_XX)
Kritisk – MEM0702 – "Correctable memory error rate exceeded for DIMM_XX" (Antallet korrigerbare minnefeil er overskredet for DIMM_XX)
Kritisk – MEM0005 – "Persistent correctable memory error limit reached for a memory device at location(s) XX" (Grensen for vedvarende korrigerbare minnefeil er nådd for en minnefeil på XX)

Hvis en av feilene ovenfor blir logget i VC-hendelsesloggen / Dial home-loggen / SEL-loggen / LifeCycle-loggen, vil det føre til at gjenopplæring av minnet blir planlagt for neste omstart (varm eller kald). BIOS vil automatisk tvinge en kald omstart uansett hva som settes i gang.

Kritisk – MEM0001 – "Multi-bit memory errors detected on memory device at location(s) DIMM_XX" (Flerbitsminnefeil er oppdaget på minneenhet på DIMM_XX)

MEM0001 fører til at serveren starter på nytt grunnet den uopprettelige feilen. Gjenopplæring av minnet utføres automatisk under denne oppstarten.

Hvis en av disse korrigerbare eller ukorrigerbare flerbitsminnefeilene oppstår, kan det hende at den resulterende gjenopplæringen av minnet ved omstart reparerer den defekte DIMM-en selv ved å optimalisere signaltidsberegningen/-marginen for hver DIMM / hvert spor. Hvis disse feilene oppstår, er det ikke nødvendig å skifte ut en DIMM med mindre gjenopplæringen av minnet mislykkes (UEFI0106) under oppstart, eller de samme feilene vedvarer.

2. Post Package Repair (PPR) – den andre "selvreparerende" minneforbedringen fører til at en defekt minneplassering på en DIMM repareres ved å deaktivere plasseringen/adressen i maskinvarelaget, slik at en ledig minnerad kan brukes i stedet. Det nøyaktige antallet ledige minnerader avhenger av DRAM-enheten og DIMM-størrelsen.
Tidligere var denne funksjonen begrenset til produksjonsprosessen. På samme måte som med forbedringene for ny opplæring av minnet som er nevnt tidligere, er det enkelte minnefeil som kan korrigeres, som fører til at PPR planlegges på et bestemt DIMM-spor for neste omstart (aktiv eller inaktiv). BIOS fremtvinger automatisk en inaktiv omstart, uavhengig av hva som startes. Ettersom PPR-operasjonen er planlagt for et bestemt DIMM-spor, må du IKKE endre DIMM-sporplasseringene før PPR-operasjonen er kjørt. Følgende er eksempler på feil:

Advarsel – MEM0701 – "Correctable memory error rate exceeded for DIMM_XX" (Antallet korrigerbare minnefeil er overskredet for DIMM_XX)
Kritisk – MEM0702 – "Correctable memory error rate exceeded for DIMM_XX" (Antallet korrigerbare minnefeil er overskredet for DIMM_XX)
Kritisk – MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX" (Grensen for vedvarende korrigerbare minnefeil er nådd for en minnefeil på XX)

Hvis en av feilene ovenfor blir logget i VC-hendelsesloggen / Dial home-loggen / SEL-loggen / LifeCycle-loggen, vil det føre til at Post Package Repair blir planlagt for neste omstart (varm eller kald).

Etter omstarten må du kontrollere at PPR-operasjonen var vellykket. En vellykket PPR-operasjon vil ligne på følgende:

Meldings-ID MEM9060 – "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier" (Post Package Repair-operasjonen ble fullført på DIMM-enheten som sviktet tidligere)
Hvis disse korrigerbare minnefeilene oppstår, er det ikke nødvendig å skifte ut en DIMM med mindre PPR-operasjonen mislykkes etter omstart. Følgende er et eksempel på en melding om mislykket PPR:
Kritisk – Meldings-ID UEFI0278 – "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X" (Kan ikke fullføre PPR-operasjonen på grunn av et problem i DIMM-minnespor X)

其他信息

Merk: Hvis du får feilmeldingen ID MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX), og den vises isolert fra tilhørende MEM0005-/MEM0701-/MEM0702-meldinger (dvs. ikke i et lignende tidsrom), vil det ikke føre til at en PPR blir planlagt for neste omstart.

Meldings-ID MEM8000, isolert eller med et samsvarende MCE (maskinkontrollunntak), indikerer en generell feil med DIMM-modulen, og er ikke en situasjon hvor en korrigerbar eller ukorrigerbar samling vil flyte over. Denne typen minnehendelse skal behandles som en DIMM-feil, og den oppførte DIMM-modulen bør skiftes ut så snart kunden har anledning.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。