Hay mejoras continuas en el BIOS de Dell PowerEdge para mejorar la mensajería de eventos de memoria, el manejo de errores y la "autorreparación" que se producen tras un reinicio del servidor. Esto evita la necesidad de una ventana de mantenimiento programada o la presencia en el sitio para reemplazar un DIMM de memoria DDR4 que estaba registrando eventos de error.
Hay dos mejoras principales del BIOS de “autorreparación” relacionadas con la memoria que se implementaron para los servidores PowerEdge con DDR4 que ejecutan la versión 2.1.x del BIOS y posteriores. Estas mejoras cambian los pasos o las acciones recomendadas que se deben realizar si se producen eventos de memoria y se registran en el registro de LifeCycle.
El reentrenamiento de la memoria, que se produce durante el arranque (al principio de los pasos de configuración de memoria), optimiza el tiempo de la señal y el establecimiento de márgenes para cada DIMM/ranura a fin de obtener un mejor acceso. Las características de tiempo y márgenes de la señal de memoria de un DIMM pueden cambiar con el tiempo por varias razones diferentes:
Anteriormente, las actualizaciones del BIOS o los cambios de configuración de la memoria que se detectaran habrían provocado un reentrenamiento de la memoria durante el arranque posterior. A partir del BIOS 2.1.x, se agregaron “activadores” de errores de memoria que se pueden corregir y que no se pueden corregir para el reentrenamiento programado:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Cualquiera de estos errores que se apunten en los registros de SEL/LifeCycle provocará que se programe el reentrenamiento de la memoria para el próximo reinicio (en caliente o en frío). El BIOS forzará automáticamente un reinicio en frío independientemente de lo que se inicie.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Este error de bits múltiples puede provocar que el servidor se reinicie debido a un error irrecuperable si el sistema operativo no puede manejar ese error. El reentrenamiento de la memoria se produce automáticamente durante ese arranque. Si el error de bits múltiples se produce en una ubicación de memoria no crítica que ese sistema operativo puede manejar, se debe programar un reinicio.
La readaptación de la memoria durante la POST puede "autorreparar" el DIMM defectuoso y la ranura asociada mediante la optimización de la sincronización de la señal y los márgenes. No es necesario sustituir el módulo DIMM por estos errores, a menos que el reentrenamiento de la memoria falle (UEFI0106) durante el arranque o que se sigan produciendo estos mismos errores.
La segunda mejora de la memoria de "autorreparación" es la PPR. PPR repara una ubicación de memoria defectuosa mediante la deshabilitación de la ubicación o la dirección en la capa de hardware, lo que permite utilizar una fila de memoria de repuesto en su lugar. La cantidad exacta de filas de memoria de reserva disponible depende del dispositivo DRAM y del tamaño del módulo DIMM.
Anteriormente, esta funcionalidad se limitaba al proceso de fabricación. Al igual que con las mejoras de readaptación de memoria mencionadas anteriormente, hay ciertos errores de memoria corregibles que provocan la programación de la PPR en una ranura de DIMM específica para el próximo reinicio (en caliente o en frío). El BIOS forzará automáticamente un reinicio en frío independientemente de lo que se inicie. Dado que la operación de PPR se programa en una ranura DIMM específica, NO cambie las ubicaciones de las ranuras DIMM hasta que se haya ejecutado la operación de PPR. Los siguientes son algunos ejemplos de los errores:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Cualquiera de estos eventos en los registros hará que la PPR se programe para el próximo reinicio (en caliente o en frío) al principio de la fase de configuración de la memoria.
Después del reinicio, compruebe que la operación de la PPR se haya ejecutado correctamente. Un ejemplo de una operación de la PPR exitosa será similar a lo siguiente:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Ya está disponible una documentación técnica recientemente publicada (versión 1.0) en la que se describen las características de confiabilidad, disponibilidad y facilidad de reparación (RAS) relacionadas con la memoria del servidor Dell PowerEdge, en la que se describen las diversas características y funcionalidades de RAS disponibles en los servidores PowerEdge: errores de memoria y Características de RAS de memoria del servidor Dell EMC PowerEdge YX4X.
Para obtener más información sobre los eventos de umbral de error corregibles, consulte Servidores PowerEdge Intel 14G e Intel/AMD 15G: Memoria DDR4: administración de eventos de umbral de error corregibles.Actualizado el 24 de abril de 2020
Dell continúa mejorando sus funcionalidades de "autorreparación". En la siguiente sección, se enumeran las actualizaciones y mejoras asociadas con las diferentes versiones del BIOS.
BIOS 2.1.x: publicación inicial del artículo de las funcionalidades de “autorreparación” disponibles a partir del BIOS 2.1.6 y versiones posteriores, incluidos ejemplos de mensajes de error y acciones recomendadas.
BIOS 2.4.x y cambios más recientes (diciembre de 219)
BIOS 2.5.x y cambios más recientes (febrero del 2020)
Actualizado el 10 de julio del 2020
El BIOS 2.7.x y los cambios más recientes (julio de 2020 bloquea el BIOS, prevista para su publicación web a mediados de julio)
ACTUALIZADO el 13 de enero del 2021
BIOS 2.8.2 y cambios más recientes (septiembre de 2020 bloquea el BIOS)
Existen mejoras adicionales de características de RAS que se están evaluando para su inclusión en futuras actualizaciones del BIOS.
Este artículo se actualizará a medida que haya nueva información disponible.
Consulte también: Orientación sobre la solución de problemas de memoria mediante pruebas de intercambio: Solución de problemas de memoria en sistemas PowerEdge mediante pruebas
de intercambio Descargas y controladores: Controladores y descargas | Dell EE. UU.