¿Qué es la "autorreparación" de DDR4?
¿Cómo cambian estas funcionalidades de "autorreparación" (mejoras del BIOS) de DDR4 las acciones recomendadas de soporte técnico y del cliente cuando se detectan errores de memoria en un servidor?
Hay dos mejoras principales del BIOS de "autorreparación" relacionadas con la memoria que se implementaron para los servidores PowerEdge con DDR4 que ejecutan la versión 2.1.x del BIOS y versiones más recientes. Estas mejoras cambian los pasos o las acciones recomendados que se deben realizar si se producen errores de memoria y se registran en vCenter, VxFM, Dial Home o en el registro de LifeCycle.
Nota: Si recibe errores de memoria con DDR4 y está ejecutando una versión del BIOS anterior a 2.1.x, actualice el BIOS a la revisión más reciente para incluir mejoras de autorreparación de memoria. A continuación, reinicie el nodo para continuar con (PPR), consulte la sección Resolución para obtener más detalles
Nota: Los pasos actuales de solución de problemas de memoria incorporan la transferencia de dimm defectuosos a una ranura diferente para confirmar si los errores siguen al DIMM o si permanecen en la ranura de DIMM.
Si el nodo 13G ejecuta bios 2.8.x o superior, el primer paso recomendado es reiniciar o reiniciar (sin mover los DIMM a una ranura diferente). Esto permite que se ejecuten las nuevas mejoras del BIOS, lo que potencialmente resuelve (autorreparación) los errores de DIMM sin necesidad de reemplazos de DIMM.
Si el nodo 14G ejecuta la versión del BIOS 2.4.8 o superior, el primer paso recomendado es reiniciar o reiniciar (sin mover los DIMM a una ranura diferente). Esto permite que se ejecuten las nuevas mejoras del BIOS, lo que potencialmente resuelve (autorreparación) los errores de DIMM sin necesidad de reemplazos de DIMM.
Actualice el BIOS a (2.8.x o superior para 13G) y (2.1.x o superior para 14G) a fin de habilitar las mejoras de recapacitación de memoria para servidores con RAM DDR4 instalada: recapacitación de memoria que se produce durante el arranque, optimice el tiempo/márgenes de la señal para cada DIMM/ranura para obtener el mejor acceso. Las características de sincronización de un DIMM pueden cambiar por varias razones diferentes:
los ejemplos incluyen, entre otros:
1. Cambios en la configuración de la memoria del servidor
2. El BIOS cambia
3. Diferentes temperaturas de funcionamiento del servidor o DIMM
4. La antigüedad general del DIMM anteriormente, las actualizaciones del BIOS o los cambios en la configuración de
la memoria que se detectaban habrían dado lugar a una readaptación de la memoria durante el arranque posterior. A partir del BIOS 2.1.x (14G) y 2.8.x (13G), se agregaron "activadores" adicionales de errores de memoria corregibles e incorregibles para la recapacitación programada:
Advertencia: MEM0701: "Correctable memory error rate exceeded for DIMM_XX".
Crítico- MEM0702: "Correctable memory error rate exceeded for DIMM_XX".
Critical - MEM0005: "Persistent correctable memory error limit reached for a memory device at location(s) XX".
Cualquiera de los errores anteriores registrados en los registros de eventos de VC/dial home/SEL/LifeCycle provoca que la readaptación de la memoria se programe para el próximo reinicio (en caliente o en frío), el BIOS fuerza automáticamente un reinicio en frío, independientemente de lo que se inicie.
Crítico - MEM0001: "Se detectaron errores de memoria de varios bits en el dispositivo de memoria en las ubicaciones DIMM_XX".
MEM0001 hace que el servidor se reinicie debido al error irrecuperable. La readaptación de la memoria se produce automáticamente durante ese arranque.
Con cualquiera de estos errores de memoria corregibles o incorregibles (de varios bits), la readaptación resultante de la memoria durante el reinicio puede "autorreparar" el DIMM fallido mediante la optimización de la sincronización/márgenes de la señal para cada DIMM/ranura. No es necesario reemplazar el DIMM para estos errores, a menos que falle la readaptación de la memoria (UEFI0106) durante el arranque o estos mismos errores continúen ocurriendo.
2. Reparación posterior al paquete (PPR): la segunda mejora de la memoria de "autorreparación" da como resultado la reparación de una ubicación de memoria fallido en un DIMM mediante la deshabilitación de la ubicación o la dirección en la capa de hardware, lo que permite utilizar una fila de memoria de repuesto en su lugar. La cantidad exacta de filas de memoria de reserva disponible depende del dispositivo DRAM y del tamaño del módulo DIMM.
Anteriormente, esta funcionalidad se limitaba al proceso de fabricación. Al igual que con las mejoras de reentrenamiento de la memoria mencionadas anteriormente, hay algunos errores de memoria que se pueden corregir, lo que provocará que la PPR se programe en una ranura DIMM específica para el próximo reinicio (en caliente o en frío). El BIOS fuerza automáticamente un reinicio en frío, independientemente de lo que se inicie. Dado que la operación de PPR está programada en una ranura DIMM específica, NO cambie las ubicaciones de las ranuras dimm hasta que se ejecute la operación PPR. Algunos ejemplos de errores son:
Advertencia- MEM0701: "Correctable memory error rate exceeded for DIMM_XX".
Crítico- MEM0702: "Correctable memory error rate exceeded for DIMM_XX".
Critical - MEM0005: "Persistent correctable memory error limit reached for a memory device at location(s) XX".
Cualquiera de los errores anteriores que se registran en el registro de eventos de VC/Dial home/SEL/LifeCycle hace que la reparación posterior al paquete se programe para el próximo reinicio (en caliente o en frío).
Después del reinicio, verifique que la operación de PPR se haya realizado correctamente. Un ejemplo de una operación de PPR correcta es similar al ID de
mensaje MEM9060: "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier".
No es necesario un reemplazo del módulo DIMM para estos errores de memoria corregibles, a menos que falle la operación de la PPR después del reinicio. Un ejemplo de un mensaje de PPR fallido es:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X".