NOTA: Este artículo no se aplica a los sistemas más recientes con procesadores escalables Xeon. En el caso de los sistemas más recientes, consulte este artículo ¿Qué es la autorreparación de DDR4 en los servidores Dell PowerEdge con procesadores escalables Intel Xeon?
Solución de problemas de errores de memoria en sistemas PowerEdge mediante pruebas de intercambio
Cuando se informa un error de un bit (SBE) o un error de varios bits (MBE) en una o más ubicaciones de DIMM de memoria, es posible que la causa no se deba al DIMM en sí, por lo que se debe realizar una solución de problemas simple para determinar dónde se encuentra exactamente la falla. Consulte la Figura 1 para ver un ejemplo de los errores de memoria que aparecen en la interfaz de iDRAC en un R715.
Figura 1: Errores de memoria como se muestra en los registros de iDRAC 6 (Solo en inglés)
Aislar problemas de memoria significa intercambiar módulos DIMM de memoria en diferentes conectores de memoria, canales, bancos y controladoras. Hay varias maneras de intercambiar los DIMM para reducir la falla. Es posible que deba utilizar más de uno de estos métodos para identificar el DIMM o el conector defectuosos. A continuación, encontrará una representación de estos métodos. Para que la explicación sea sencilla, asumimos que el DIMM defectuoso es A1 o uno de los conjuntos marcados en azul en las imágenes.
Intercambiar los DIMM en grupos (por canal o banco) en lugar de individualmente es el mejor método para identificar el o los DIMM fallidos.
Una vez que se haya identificado que un grupo de DIMM contiene el DIMM o los DIMM fallidos, se puede utilizar la transferencia de DIMM individuales para identificar qué DIMM han fallado.
Intercambiar el DIMM A1 (marcado en azul) con el DIMM A9 (marcado en rojo) para probar el DIMM en un canal y un banco de memoria diferentes
Figura 2: Intercambio del DIMM A1 con el DIMM A9
Intercambiar el DIMM A1 (marcado en azul) con el DIMM B1 (marcado en rojo) coloca el DIMM en una controladora de memoria (CPU) completamente diferente.
Figura 3: Intercambio del DIMM A1 con el DIMM B1
El intercambio de todo el banco de DIMM (A1, A2, A3: marcado en azul) con otro banco (B1, B2, B3: marcado en rojo) prueba todo el banco de DIMM en un banco nuevo, en una nueva controladora de memoria.
Figura 4: Intercambio de los DIMM A1, A2 y A3 con los DIMM B1, B2 y B3
Intercambie un canal completo de DIMM (A1, A4, A7: marcado en azul) con otro canal (B1, B2, B3: marcado en rojo) y pruebe todo el canal de DIMM en un canal nuevo y en una nueva controladora de memoria.
Figura 5: Intercambio de los DIMM A1, A4 y A7 con los DIMM B1, B4 y B7
Por lo general, los errores de DIMM tienden a seguir a los DIMM identificados en los errores. Por ejemplo, con un SBE que informa sobre el DIMM A1, el intercambio de este DIMM con otro DIMM da como resultado una de las siguientes opciones:
No corresponde
No corresponde