症状
Si dispone di un nodo 13G o 14G che segnala gli errori di MEM nel log degli eventi iDRAC.
Che cosa è possibile fare per risolvere il problema senza una sostituzione hardware o una visita programmata dal CE.
Che cos'è DDR4 "guarigione automatica"?
In che modo queste funzionalità di DDR4 "autorigenerabili" (miglioramenti del BIOS) modificano le azioni consigliate del cliente e del supporto tecnico quando riscontrano errori di memoria su un server?
Sono presenti due miglioramenti del BIOS "autoguarigione" correlati alla memoria che sono stati implementati per PowerEdge Server con DDR4 in cui è in esecuzione il BIOS versione 2.1. x e versioni successive. Questi miglioramenti modificano le operazioni e le azioni consigliate da intraprendere se si verificano errori di memoria e sono registrati in vCenter, VxFM, Dial Home o nel LifeCycle log.
Nota Se si stanno ottenendo errori di memoria con DDR4 e si sta eseguendo una versione del BIOS precedente alla 2.1. x, aggiornare il BIOS alla revisione più recente per includere i miglioramenti di autoguarigione della memoria. Quindi riavviare il nodo per continuare con (PPR) vedere la sezione risoluzione per ulteriori dettagli
Nota: I passaggi di risoluzione dei problemi relativi alla memoria incorporano lo spostamento delle DIMM in errore su uno slot diverso per confermare se gli errori seguono o meno DIMM lo slot DIMM.
Se il nodo 13G è in cui è in corso il BIOS 2.8. x o versione successiva, il primo passaggio consigliato è un riavvio/riavvio (senza spostare i moduli DIMM in uno slot diverso). Consentendo l'esecuzione dei nuovi miglioramenti del BIOS, potenzialmente risolvendo (autorigenerando) gli errori di DIMM senza la necessità di sostituzioni DIMM.
Se il nodo 14G sta eseguendo la versione del BIOS 2.4.8 o successiva, il primo passaggio consigliato è un riavvio/riavvio (senza spostare i moduli DIMM in uno slot diverso). per consentire l'esecuzione dei nuovi miglioramenti del BIOS, risolvendo (self-healing) potenzialmente gli errori dei DIMM senza doverli spostare.
原因
ECC errori di memoria nella maggior parte dei casi sono causati da un bombardamento casuale delle particelle alpha. Le particelle alpha fanno parte della normale radiazione che si verificano ogni giorno. Occasionalmente una particella alpha farà cadere un singolo elettrone fuori da un modulo di memoria che danneggia i dati. I moduli di memoria moderni sono progettati per riconoscere questo evento e ripararli. Ogni modulo mantiene un contatore interno di quante volte ha riparato un errore di memoria. Nel BIOS viene impostato un limite di soglia che, quando raggiunto, avvisa il server che il numero di eventi di memoria ha superato tale soglia.
解决方案
Aggiornare il BIOS a (2.8. x o versione successiva per 13G) e (2.1. x o versione successiva per 14G) per consentire miglioramenti nella riqualificazione della memoria per i server con DDR4 RAM installazione-riqualificazione della memoria che si verifica durante l'avvio, ottimizzare la tempistica/il margine di segnale per ogni DIMM/slot per un migliore accesso. Le caratteristiche di temporizzazione di un DIMM possono variare per diversi motivi: gli
esempi includono, a titolo esemplificativo:
1. Modifiche alla configurazione della memoria del server Modifiche al BIOS
3. Temperature di esercizio diverse del server o del DIMM4 L'età generale del DIMM
in precedenza, gli aggiornamenti del BIOS o le modifiche alla configurazione della memoria rilevate avrebbero generato una riformazione della memoria durante l'avvio successivo. A partire dal BIOS 2.1. x (14G) e 2.8. x (13G), sono stati aggiunti altri errori di memoria correggibili e non correggibili "trigger" per la riqualificazione pianificata:
warning-MEM0701-"il tasso di errore di memoria correggibile è stato superato per DIMM_XX"
. Critical-MEM0702-"frequenza di errore di memoria correggibile superata per DIMM_XX"
. Critical-MEM0005-"limite di errore di memoria persistente, raggiunto per un device di memoria in posizione XX."
Uno qualsiasi degli errori di cui sopra registrati nei registri eventi/Dial Home/SEL/LifeCycle di VC comporterà la pianificazione della riformazione della memoria per il riavvio successivo (caldo o freddo), il BIOS forzerà automaticamente un riavvio a freddo indipendentemente da ciò che viene avviato.
Critical-MEM0001-"errori di memoria a più bit rilevati sul dispositivo di memoria in sede DIMM_XX"
. MEM0001 genera il riavvio del server a causa dell'errore irreversibile. La riformazione della memoria si verificherà automaticamente durante l'avvio.
Con uno di questi errori di memoria (multibit) correggibile o non correggibile, la conseguente riqualificazione della memoria al riavvio/al riavvio potrebbe "risanare" il guasto del DIMM ottimizzando la temporizzazione/il margine di segnale per ogni DIMM/slot. Per questi errori non è necessario sostituire un modulo DIMM, a meno che la reimpostazione della memoria abbia esito negativo (UEFI0106) durante l'avvio o se si continuano a verificare gli stessi errori. Riparazione del pacchetto POST (PPR) - Il secondo miglioramento per il self-healing della memoria comporta la riparazione di una posizione di memoria con errori su un modulo DIMM disabilitando la posizione o l'indirizzo a livello di hardware e consentendo l'utilizzo di una riga di memoria di riserva. Il numero esatto di righe di memoria riservate disponibili dipende dal device DRAM e DIMM dimensioni.
In precedenza, questa funzionalità era limitata al processo di produzione. Proprio come per i miglioramenti di reimpostazione della memoria menzionati in precedenza, alcuni errori di memoria correggibili comporteranno la pianificazione della riparazione del pacchetto POST su uno slot specifico per il riavvio successivo (a caldo o a freddo). Il BIOS forzerà automaticamente un riavvio a freddo indipendentemente da ciò che viene avviato. Poiché l'operazione è pianificata su uno slot di DIMM specifico, NON modificare le posizioni degli slot fino a quando non verrà eseguita la riparazione del pacchetto POST. Esempi degli errori sono:
warning-MEM0701-"la frequenza di errore di memoria correggibile è stata superata per DIMM_XX"
. Critical-MEM0702-"frequenza di errore di memoria correggibile superata per DIMM_XX"
. Critical-MEM0005-"limite di errore di memoria persistente, raggiunto per un device di memoria in posizione XX."
Uno qualsiasi degli errori di cui sopra registrati nel registro eventi VC/Dial Home/SEL/LifeCycle comporterà la pianificazione della riparazione post-pacchetto per il riavvio successivo (caldo o freddo).
Dopo il riavvio, verificare che l'operazione PPR sia stata eseguita correttamente. Un esempio di operazione PPR corretta sarà simile a:
Message ID MEM9060-"l'operazione di riparazione postpacchetto viene completata correttamente nel dispositivo dual in-line Memory Module (DIMM) in cui si è verificato il guasto in precedenza."
Un DIMM sostituzione di questi errori di memoria correggibile non è necessario a meno che l'operazione PPR non riesca dopo il riavvio. Un esempio di errore di PPR è:
Critical-Message ID UEFI0278-"Impossibile completare l'operazione di riparazione del pacchetto (PPR) a causa di un problema nello slot di memoria DIMM X."
Nota: In una situazione in cui si verifica l'ID messaggio MEM8000 (errore di memoria corretto Logging disattivato per un device di memoria in sede DIMM_XX) che viene visualizzato in isolamento (ad esempio, non in un frame di tempo simile) ai messaggi MEM0005/MEM0701/MEM0702 corrispondenti, non provocherà la pianificazione di un PPR per il riavvio successivo.
L'ID del messaggio MEM8000 in isolamento o con un MCE corrispondente (eccezione di controllo Machine) indica un errore generale del modulo di DIMM e non è una situazione in cui i bucket correggibili o non correggibili inizialmente si traboccano. Questo tipo di evento di memoria deve essere considerato come un errore di DIMM e il modulo DIMM elencato deve essere sostituito con la prima convenienza del cliente.
受影响的产品
VxFlex Product Family
产品
VxFlex Product Family