Solución de problemas de memoria en sistemas PowerEdge mediante pruebas de intercambio
Summary:Intercambio de DIMM de memoria para solucionar errores de memoria en servidores Dell Technologies PowerEdge.
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Solución de problemas de errores de memoria en sistemas PowerEdge mediante pruebas de intercambio
Cuando se informa un error de un bit (SBE) o un error de varios bits (MBE) en una o más ubicaciones de DIMM de memoria, es posible que la causa no se deba al DIMM en sí, por lo que se debe realizar una solución de problemas simple para determinar dónde se encuentra exactamente la falla. Consulte la Figura 1 para ver un ejemplo de los errores de memoria que aparecen en la interfaz de iDRAC en un R715.
Figura 1: Errores de memoria como se muestra en los registros de iDRAC 6 (Solo en inglés)
Aislar problemas de memoria significa intercambiar módulos DIMM de memoria en diferentes conectores de memoria, canales, bancos y controladoras. Hay varias maneras de intercambiar los DIMM para reducir la falla. Es posible que deba utilizar más de uno de estos métodos para identificar el DIMM o el conector defectuosos. A continuación, encontrará una representación de estos métodos. Para que la explicación sea sencilla, asumimos que el DIMM defectuoso es A1 o uno de los conjuntos marcados en azul en las imágenes.
Intercambiar los DIMM en grupos (por canal o banco) en lugar de individualmente es el mejor método para identificar el o los DIMM fallidos. Una vez que se haya identificado que un grupo de DIMM contiene el DIMM o los DIMM fallidos, se puede utilizar la transferencia de DIMM individuales para identificar qué DIMM han fallado.
Método 1:
Intercambiar el DIMM A1 (marcado en azul) con el DIMM A9 (marcado en rojo) para probar el DIMM en un canal y un banco de memoria diferentes
Figura 2: Intercambio del DIMM A1 con el DIMM A9
Método 2:
Intercambiar el DIMM A1 (marcado en azul) con el DIMM B1 (marcado en rojo) coloca el DIMM en una controladora de memoria (CPU) completamente diferente.
Figura 3: Intercambio del DIMM A1 con el DIMM B1
Método 3:
El intercambio de todo el banco de DIMM (A1, A2, A3: marcado en azul) con otro banco (B1, B2, B3: marcado en rojo) prueba todo el banco de DIMM en un banco nuevo, en una nueva controladora de memoria.
Figura 4: Intercambio de los DIMM A1, A2 y A3 con los DIMM B1, B2 y B3
Método 4
Intercambie un canal completo de DIMM (A1, A4, A7: marcado en azul) con otro canal (B1, B2, B3: marcado en rojo) y pruebe todo el canal de DIMM en un canal nuevo y en una nueva controladora de memoria.
Figura 5: Intercambio de los DIMM A1, A4 y A7 con los DIMM B1, B4 y B7
Interpretación de los resultados después de intercambiar los DIMM
Por lo general, los errores de DIMM tienden a seguir a los DIMM identificados en los errores. Por ejemplo, con un SBE que informa sobre el DIMM A1, el intercambio de este DIMM con otro DIMM da como resultado una de las siguientes opciones:
El mensaje de error ya no se informa y el problema se resolvió
Esto significa que volver a insertar la memoria resolvió el problema
El mensaje de error sigue al DIMM (el DIMM A1 se intercambió con el DIMM B1 y los mensajes de error informados se relacionan con el DIMM B1)
Esto significa que es muy probable que el DIMM haya fallado y se deba reemplazar
El mensaje de error sigue al conector de DIMM (el DIMM A1 se intercambió con el DIMM B1 y los mensajes de error informados se siguen relacionando con el DIMM A1)
Esto indica que es muy probable que la tarjeta madre o la CPU hayan fallado
El intercambio de CPU confirma qué componente requiere reemplazo
Si el problema sigue a la CPU (el mensaje de error se reproduce después de intercambiar las CPU), reemplace la CPU
Si el problema persiste en el conector de DIMM, reemplace la tarjeta madre
El mensaje de error no sigue al DIMM ni al conector (el error se informa en un DIMM diferente después del intercambio)
Esto significa que es muy probable que uno o varios DIMM diferentes presenten fallas
NOTA: Le recomendamos que mantenga actualizados sus niveles de firmware, ya que esto puede reducir el riesgo de recibir errores de memoria y prolongar la vida útil de los DIMM.
Para obtener más información, consulte el artículo de la base de conocimientos de Dell Dell Repository Manager (DRM).