Número del artículo: 000144821
NOTA: questo articolo non si applica ai sistemi più recenti con processore scalabile Xeon. Per i sistemi più recenti, consultare questo articolo Che cos è il self-healing della memoria DDR4 sui server Dell PowerEdge con processori scalabili Intel Xeon.
Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione
Quando viene segnalato un errore a bit singolo (SBE) e/o multibit (MBE) in una o più posizioni di memoria DIMM, la causa potrebbe non essere il DIMM stesso, pertanto è necessario eseguire alcune semplici operazioni di risoluzione dei problemi per determinare esattamente dove si trova l'errore. Vedere la Figura 1 per un esempio di errori di memoria visualizzati nell'interfaccia iDRAC su un R715.
Figura 1: Errori di memoria visualizzati nei registri iDRAC 6 (solo in inglese)
Per isolare i problemi di memoria si intende scambiare i DIMM di memoria in diversi socket, canali, banchi e controller di memoria. Esistono diversi modi per scambiare i DIMM per restringere il campo di errore. Potrebbe essere necessario utilizzare più di uno di questi metodi per individuare il connettore o il modulo DIMM difettoso. Di seguito è riportata una rappresentazione di questi metodi. Per semplificare la spiegazione, si presume che il modulo DIMM difettoso sia A1 o uno dei set contrassegnati in blu nelle immagini.
Scambiare i DIMM in gruppi (per canale o banca) piuttosto che singolarmente è il metodo migliore per identificare i DIMM guasti.
Una volta identificato un gruppo di DIMM che contiene i DIMM guasti, è possibile utilizzare i singoli DIMM in movimento per identificare i DIMM guasti.
Scambiare il MODULO DIMM A1 (contrassegnato in blu) con il modulo DIMM A9 (contrassegnato in rosso) per provare il modulo DIMM in un altro canale di memoria e nel banco
Figura 2: Sostituzione di DIMM A1 con DIMM A9
Sostituendo il modulo DIMM A1 (contrassegnato in blu) con il modulo DIMM B1 (contrassegnato in rosso), il modulo DIMM viene posizionato su un controller di memoria (CPU) completamente diverso.
Figura 3: Sostituzione di DIMM A1 con DIMM B1
Scambiando l'intero banco di DIMM (A1, A2, A3 contrassegnato in blu) con un altro banco (B1, B2, B3 contrassegnato in rosso) si testa l'intero banco di DIMM in un nuovo banco su un nuovo controller di memoria.
Figura 4: Sostituzione di DIMM A1, A2, A3 con DIMM B1, B2, B3
Scambiando un intero canale di DIMM (A1, A4, A7 - contrassegnato in blu) con un altro canale (B1, B2, B3 - contrassegnato in rosso) testare l'intero canale dei DIMM in un nuovo canale e su un nuovo controller di memoria.
Figura 5: Sostituzione di DIMM A1, A4, A7 con DIMM B1, B4, B7
In genere, gli errori DIMM tendono a seguire i DIMM identificati negli errori. Ad esempio, con un report SBE su DIMM A1, scambiare questo DIMM con un altro DIMM determina una delle seguenti condizioni:
Non applicabile
Non applicabile
PowerEdge
15 abr 2024
8
Solution