Server Intel 14G e 15G Intel/AMD PowerEdge: Memoria DDR4: gestione degli eventi di soglia di errore correggibili
Resumen:
Suggerimenti aggiornati per i clienti nella gestione degli eventi di soglia di errore correggibili (MEM0802 o MEM5104) su RDIMM o LRDIMM DDR4 installati nei server PowerEdge 14G e 15G
basati su Intel e nei server PowerEdge 15G basati su AMD.
Nota: Questo articolo non si applica ai server PowerEdge 14G basati su AMD, come le piattaforme 64x5 o 74x5, in quanto non dispongono di questa funzionalità Post Package Repair/self-healing, anche se il DIMM stesso la supporta.
...
Seleccione un producto para comprobar la relevancia del artículo
Este artículo se aplica a Este artículo no se aplica aEste artículo no está vinculado a ningún producto específico.No se identifican todas las versiones del producto en este artículo.
Con l'evoluzione delle funzioni RAS (Reliability, Accessibility and Serviceability) nella memoria di livello enterprise, Dell ha adottato un approccio conservativo nella segnalazione degli errori per garantire trasparenza ai clienti. Con questa evoluzione, aumenta anche l'approccio di Dell alla segnalazione degli errori per consentire di concentrarsi sulle notifiche che richiedono una risposta più urgente rispetto alle notifiche di natura principalmente informativa.
Poiché le geometrie della memoria basata su DRAM continuano a ridursi, fornendo ai clienti le maggiori prestazioni richieste, si prevede un numero crescente di errori correggibili come parte naturale del dimensionamento uniforme.
Causa
Nel settore globale dei server, è sempre più accettato, condiviso da Dell, l'idea che alcuni errori correggibili per ogni DIMM siano inevitabili e non giustifichino di per sé la sostituzione del modulo di memoria o un riavvio immediato per avviare il self-healing.
Resolución
Continuando a utilizzare un sistema che segnala errori correggibili senza un riavvio per il self-healing, non aumenta in modo significativo il rischio di riscontrare errori non correggibili che potrebbero portare a downtime non pianificati. In effetti, altri operatori del settore hanno comunicato pubblicamente che la loro gestione della memoria non segnala errori correggibili.
In BIOS Intel PowerEdge 14G versione 2.5.4 e successive è stata aggiunta un'impostazione del BIOS denominata "Correctable Error Logging" per consentire ai clienti di scegliere di disabilitare la segnalazione di errori correggibili, se lo desiderano, e molti lo hanno fatto. Il BIOS continuerà a pianificare il self-healing per gli eventi di soglia correggibili anche senza la registrazione. Il self-healing pianificato si verificherà automaticamente durante il successivo riavvio del sistema.
A partire da marzo 2022, gli aggiornamenti del BIOS Dell PowerEdge modificheranno l'impostazione del BIOS "Correctable Error Logging" su Disabled per impostazione predefinita. Questa opzione del BIOS può essere riabilitata per consentire ai clienti che desiderano continuare a visualizzare gli eventi di soglia di memoria correggibili. Le versioni del BIOS con questa modifica alle impostazioni del BIOS inclusa sono:
Piattaforme Intel 14G - BIOS 2.13.3 o versioni successive
Piattaforme AMD 15G - BIOS versioni 2.6.5 o successive
Piattaforme Intel 15G - BIOS versione 1.5.5 o successive.
I vantaggi del self-healing dei DIMM DDR4 tramite il riavvio del sistema:
Consente la riparazione di un DIMM DDR4 senza rimuoverlo dal sistema. tutti i DIMM DDR4 forniti da Dell supportano il self-healing della memoria. Nota: i server AMD PowerEdge di 14a generazione non dispongono di questa funzionalità di self-healing.
Utilizza le file di riserva disponibili architettate nella DRAM in cui una riga danneggiata viene sostituita in modo permanente con una sicuramente funzionante mediante fusibile elettrico.
La successiva ripetizione del training della memoria ottimizza gli "occhi dei dati" ricalibrando i punti centrali per garantire che il bus di memoria funzioni al massimo livello di integrità del segnale.
Per gli eventi di soglia correggibili con l'impostazione del BIOS "Correctable Error Logging" abilitata, se si verificano eventi di soglia della memoria, Dell consiglia di riavviare in base alla normale pianificazione di manutenzione del cliente per consentire il self-healing o la correzione automatica della memoria pianificata. Dopo il riavvio, verranno registrati gli eventi di self-healing riusciti o non riusciti per i moduli DIMM associati.
Con l'impostazione Disfigurata del BIOS "Correctable Error Logging", Dell consiglia di eseguire il riavvio in base alla normale pianificazione di manutenzione del cliente. Al riavvio, tutte le operazioni di self-healing pianificate verranno eseguite automaticamente. Se l'operazione di self-healing/autocorrezione, il sistema registrerà un evento (eventi di tipo MEM0805 o MEM7114) e consiglierà inoltre di sostituire fisicamente il modulo DIMM interessato.
Raccomandazione: Dell EMC Memory Engineering consiglia ai clienti di server PowerEdge su versioni del BIOS precedenti (versioni del BIOS precedenti al blocco di marzo 2022) di modificare l'impostazione del BIOS "Correctable Error Logging" su Disabled. In questo modo verranno eliminati sporadici eventi di soglia di memoria correggibili (ad esempio eventi di tipo MEM0802 o MEM5104) nell'infrastruttura server che consigliano il riavvio del server per consentire il self-healing o l'autocorrezione. Come accennato in precedenza, tutte le operazioni di self-healing o self-correction pianificate verranno eseguite automaticamente al riavvio del server e verranno segnalati eventuali errori.
L'impostazione del BIOS "Correctable Error Logging" può essere modificata riavviando il server con le impostazioni F2 o tramite la GUI di iDRAC.
Per modificare le impostazioni del BIOS utilizzando F2 Settings:
Riavviare i server arrestandosi alle impostazioni F2
Nella selezione BIOS Settings -> Memory Settings, impostare "Correctable Error Logging" su Disabled.
Salvare le impostazioni del BIOS e uscire dalle impostazioni F2
Per modificare le impostazioni del BIOS utilizzando la GUI di iDRAC:
Accedere alla GUI di iDRAC
In Configuration -> BIOS Settings, espandere la sezione Memory Settings
Modificare l'impostazione "Correctable Error Logging" su disabled
Fare clic sul pulsante Applica per salvare le impostazioni di memoria
Non dimenticare di selezionare il pulsante Applica e riavvia (per riavviare immediatamente) o il pulsanteAl riavvio successivo per applicare le modifiche del BIOS.
Gli articoli della Knowledge Base e i white paper esistenti correlati alla memoria verranno aggiornati per riflettere questa modifica consigliata.
NOTA BENE: I messaggi approvati per i clienti sono allegati come file a questo articolo, "Managing Correctable Error Notices Dec 2021 v1.pdf".
Questo articolo verrà aggiornato non appena saranno disponibili nuove informazioni.