Il BIOS di Dell PowerEdge è costantemente aggiornato per migliorare la messaggistica degli eventi di memoria, la gestione degli errori e il self-healing che si verificano al riavvio del server. In questo modo si evita la necessità di una finestra di manutenzione pianificata o di una presenza on-site per sostituire un modulo DIMM di memoria DDR4 che registrava eventi di errore.
Sono presenti due miglioramenti principali del BIOS per il self-healing correlati alla memoria, implementati per i server PowerEdge con memoria DDR4, BIOS 2.1.x e versioni successive. Questi miglioramenti modificano le procedure o le azioni consigliate da eseguire se gli eventi di memoria si verificano e vengono registrati nel registro LifeCycle.
La reimpostazione della memoria che si verifica durante l'avvio (all'inizio della procedura di configurazione della memoria) ottimizza la temporizzazione e i margini del segnale per ciascun DIMM/slot per un accesso ottimale. Le caratteristiche di temporizzazione e margini del segnale di memoria di un modulo DIMM possono cambiare nel tempo per diversi motivi:
In precedenza, gli aggiornamenti del BIOS o le modifiche alla configurazione della memoria rilevate avrebbero determinato una reimpostazione della memoria all'avvio successivo. A partire dal BIOS 2.1.x, sono stati aggiunti altri trigger di errori di memoria correggibili e non correggibili per la reimpostazione pianificata:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
La registrazione di uno di questi errori nei registri SEL/LifeCycle comporterà la pianificazione della reimpostazione della memoria al riavvio successivo (a caldo o a freddo). Il BIOS forzerà automaticamente un riavvio a freddo indipendentemente dalla richiesta di inizializzazione.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Questo errore multibit può causare il riavvio del server per un errore irreversibile se il sistema operativo non è in grado di gestire tale errore. La reimpostazione della memoria si verificherà automaticamente durante l'avvio. Se l'errore multibit si verifica in una posizione di memoria non critica gestibile dal sistema operativo, è necessario pianificare un riavvio.
La reimpostazione della memoria durante il POST può eseguire il self-healing del modulo DIMM guasto e dello slot associato ottimizzando le tempistiche e i margini del segnale. Per questi errori non è necessario sostituire un modulo DIMM, a meno che la reimpostazione della memoria abbia esito negativo (UEFI0106) durante l'avvio o se si continuano a verificare gli stessi errori.
Il secondo miglioramento della memoria "self-healing" è il PPR. La riparazione PPR ripara una posizione di memoria con errori disabilitando la posizione o l'indirizzo a livello di hardware, consentendo l'utilizzo di una riga di memoria di riserva. Il numero esatto di righe di memoria di riserva disponibili dipende dal dispositivo DRAM e dalle dimensioni del modulo DIMM.
In precedenza, questa funzionalità era limitata al processo di produzione. Come per i miglioramenti di reimpostazione della memoria menzionati in precedenza, alcuni errori di memoria correggibili comportano la pianificazione della riparazione del pacchetto PPR su uno slot DIMM specifico per il riavvio successivo (a caldo o a freddo). Il BIOS forzerà automaticamente un riavvio a freddo indipendentemente dalla richiesta di inizializzazione. Poiché l'operazione è pianificata su uno slot di DIMM specifico, NON modificare le posizioni degli slot fino a quando non verrà eseguita la riparazione del pacchetto POST. Esempi di errori:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Uno di questi eventi nei registri comporterà la pianificazione del PPR per il riavvio successivo (a caldo o a freddo) all'inizio della fase di configurazione della memoria.
Dopo il riavvio, verificare che l'operazione di riparazione del pacchetto POST sia stata eseguita correttamente. Un esempio di operazione di riparazione del pacchetto POST corretta sarà simile alla seguente:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
È ora disponibile un white paper appena pubblicato (versione 1.0) che descrive le varie funzioni RAS (Reliability, Availability, and Serviceability) correlate alla memoria dei server Dell PowerEdge disponibili sui server PowerEdge: Memory Errors and Dell EMC PowerEdge YX4X Server Memory RAS Features.
Per ulteriori informazioni sugli eventi di soglia di errore correggibili, consultare Server PowerEdge Intel 14G e 15G Intel/AMD: memoria DDR4: gestione degli eventi di soglia di errore correggibili (in inglese).Aggiornamento: 24 aprile 2020
Dell continua a migliorare le funzionalità di self-healing. Nella sezione seguente sono elencati gli aggiornamenti e i miglioramenti associati alle diverse versioni del BIOS.
BIOS 2.1.x: pubblicazione iniziale dell'articolo relativo alle funzionalità di self-healing disponibili a partire dal BIOS 2.1.6 e versioni successive, inclusi messaggi di errore di esempio e azioni consigliate.
Modifiche BIOS 2.4.x e successive (dicembre 2019)
Modifiche BIOS 2.5.x e successive (febbraio 2020)
Aggiornamento: 10 luglio 2020
Modifiche BIOS 2.7.x e successive (BIOS del blocco di luglio 2020, previsto a metà luglio per la pubblicazione sul Web)
Aggiornamento: 13 gennaio 2021
Modifiche BIOS 2.8.2 e successive (BIOS del blocco di settembre 2020)
Esistono ulteriori miglioramenti delle funzioni RAS in fase di valutazione per essere inclusi nei futuri aggiornamenti del BIOS.
Questo articolo verrà aggiornato non appena saranno disponibili nuove informazioni.
Vedere anche: Indicazioni sulla risoluzione dei problemi di memoria tramite test di sostituzione - Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test
di sostituzione Download e driver: Driver e download | Dell Stati Uniti