Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione
Résumé:Scambio di DIMM di memoria per risolvere gli errori di memoria sui server Dell Technologies PowerEdge.
Sélectionnez un produit pour vérifier la pertinence de l’article
Cet article concerne Cet article ne concerne pasCet article n’est associé à aucun produit spécifique.Toutes les versions du produit ne sont pas identifiées dans cet article.
Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione
Quando viene segnalato un errore a bit singolo (SBE) e/o multibit (MBE) in una o più posizioni di memoria DIMM, la causa potrebbe non essere il DIMM stesso, pertanto è necessario eseguire alcune semplici operazioni di risoluzione dei problemi per determinare esattamente dove si trova l'errore. Vedere la Figura 1 per un esempio di errori di memoria visualizzati nell'interfaccia iDRAC su un R715.
Figura 1: Errori di memoria visualizzati nei registri iDRAC 6 (solo in inglese)
Per isolare i problemi di memoria si intende scambiare i DIMM di memoria in diversi socket, canali, banchi e controller di memoria. Esistono diversi modi per scambiare i DIMM per restringere il campo di errore. Potrebbe essere necessario utilizzare più di uno di questi metodi per individuare il connettore o il modulo DIMM difettoso. Di seguito è riportata una rappresentazione di questi metodi. Per semplificare la spiegazione, si presume che il modulo DIMM difettoso sia A1 o uno dei set contrassegnati in blu nelle immagini.
Scambiare i DIMM in gruppi (per canale o banca) piuttosto che singolarmente è il metodo migliore per identificare i DIMM guasti. Una volta identificato un gruppo di DIMM che contiene i DIMM guasti, è possibile utilizzare i singoli DIMM in movimento per identificare i DIMM guasti.
Metodo 1.
Scambiare il MODULO DIMM A1 (contrassegnato in blu) con il modulo DIMM A9 (contrassegnato in rosso) per provare il modulo DIMM in un altro canale di memoria e nel banco
Figura 2: Sostituzione di DIMM A1 con DIMM A9
Metodo 2.
Sostituendo il modulo DIMM A1 (contrassegnato in blu) con il modulo DIMM B1 (contrassegnato in rosso), il modulo DIMM viene posizionato su un controller di memoria (CPU) completamente diverso.
Figura 3: Sostituzione di DIMM A1 con DIMM B1
Metodo 3.
Scambiando l'intero banco di DIMM (A1, A2, A3 contrassegnato in blu) con un altro banco (B1, B2, B3 contrassegnato in rosso) si testa l'intero banco di DIMM in un nuovo banco su un nuovo controller di memoria.
Figura 4: Sostituzione di DIMM A1, A2, A3 con DIMM B1, B2, B3
Metodo 4
Scambiando un intero canale di DIMM (A1, A4, A7 - contrassegnato in blu) con un altro canale (B1, B2, B3 - contrassegnato in rosso) testare l'intero canale dei DIMM in un nuovo canale e su un nuovo controller di memoria.
Figura 5: Sostituzione di DIMM A1, A4, A7 con DIMM B1, B4, B7
Interpretazione dei risultati dopo lo swapping di DIMM
In genere, gli errori DIMM tendono a seguire i DIMM identificati negli errori. Ad esempio, con un report SBE su DIMM A1, scambiare questo DIMM con un altro DIMM determina una delle seguenti condizioni:
Il messaggio di errore non viene più segnalato e il problema è stato risolto
Ciò indica che il riposizionamento della memoria ha risolto il problema
Il messaggio di errore segue il DIMM (DIMM A1 viene sostituito con DIMM B1 e i messaggi di errore sono ora segnalati rispetto a DIMM B1)
Ciò indica che il modulo DIMM è probabilmente guasto e richiede la sostituzione.
Il messaggio di errore segue il socket DIMM (DIMM A1 viene sostituito con DIMM B1 e i messaggi di errore sono ancora segnalati rispetto a DIMM A1)
Ciò indica che la scheda di sistema o la CPU è probabilmente guasta
Lo swap delle CPU conferma quale componente richiede la sostituzione
Se il problema riguarda la CPU (il messaggio di errore si sposta dopo lo swapping delle CPU), sostituire la CPU
Se il problema persiste con il socket DIMM, sostituire la scheda di sistema
Il messaggio di errore non segue il DIMM o il socket (l'errore viene segnalato rispetto a un altro DIMM dopo lo swapping)
Ciò indica che un altro modulo DIMM è molto probabilmente danneggiato
NOTA: Si consiglia inoltre di mantenere aggiornati i livelli del firmware in quanto ciò può ridurre il rischio di ricevere errori di memoria e prolungare la durata dei moduli DIMM.
Per ulteriori informazioni, consultare l'articolo della Knowledge Base di Dell Dell Repository Manager (DRM).