Servidores Intel 14G e Intel/AMD PowerEdge 15G: Memoria DDR4: administración de eventos de umbral de error corregibles
Résumé:
Recomendaciones actualizadas para los clientes al administrar eventos de umbral de error corregibles (MEM0802 o MEM5104) en RDIMM o LRDIMM DDR4 instalados en servidores PowerEdge 14G y
15G basados en Intel, así como en servidores PowerEdge 15G basados en AMD.
Nota: Este artículo no se aplica a los servidores PowerEdge basados en AMD 14G, como las plataformas 64x5 o 74x5, ya que no tienen esta funcionalidad de reparación posterior al empaque/autorreparación, a pesar de que el propio DIMM la admite.
...
Sélectionnez un produit pour vérifier la pertinence de l’article
Cet article concerne Cet article ne concerne pasCet article n’est associé à aucun produit spécifique.Toutes les versions du produit ne sont pas identifiées dans cet article.
A través de la evolución de las características de RAS (confiabilidad, accesibilidad y facilidad de reparación) en la memoria de clase empresarial, Dell adoptó un enfoque conservador en la generación de informes de errores para proporcionar transparencia a nuestros clientes. A medida que esta evolución continúa, también lo hace el enfoque de Dell con respecto a la generación de informes de errores para permitir un enfoque en los avisos que requieren una respuesta más urgente en comparación con los avisos que son principalmente de naturaleza informativa.
A medida que las geometrías de memoria basadas en DRAM continúan reduciéndose, lo que proporciona a los clientes el mayor rendimiento que exigen, se espera una cantidad cada vez mayor de errores corregibles como parte natural del escalamiento uniforme.
Cause
Dentro de la industria global de servidores, existe una comprensión cada vez más aceptada, compartida por Dell, de que algunos errores corregibles por DIMM son inevitables y no justifican inherentemente un reemplazo del módulo de memoria o incluso un reinicio inmediato para iniciar la autorreparación.
Résolution
Continuar operando un sistema que informa errores corregibles sin un reinicio para autorrepararse no aumenta significativamente el riesgo de experimentar errores incorregibles que pueden provocar un tiempo de inactividad no planificado. De hecho, otros en la industria han comunicado públicamente que su manejo de memoria no informa errores corregibles.
En la versión 2.5.4 del BIOS Intel PowerEdge 14G y posteriores, se agregó una configuración del BIOS denominada "Registro de errores corregibles" para permitir a los clientes la opción de deshabilitar la generación de informes de errores corregibles si así lo desean, y muchos lo han hecho. El BIOS continuará programando la autorreparación para eventos de umbral corregibles, incluso sin el registro. Esta autorreparación programada se producirá automáticamente durante el reinicio posterior del sistema.
Para estar más en línea con la industria y los comentarios continuos de los clientes, a partir de marzo de 2022, las actualizaciones del BIOS de Dell PowerEdge cambiarán la configuración del BIOS de "Registro de errores corregible" a deshabilitada de manera predeterminada. Esta opción del BIOS se puede volver a habilitar para los clientes que deseen seguir viendo eventos de umbral de memoria corregibles. Las versiones del BIOS con este cambio de configuración del BIOS incluido son las siguientes:
Plataformas Intel 14G: versiones del BIOS 2.13.3 o más recientes
Plataformas AMD 15G: versiones del BIOS 2.6.5 o más recientes
Plataformas Intel 15G: versiones del BIOS 1.5.5 o posteriores.
Los beneficios de la autorreparación de DIMM DDR4 a través de un reinicio del sistema son los siguientes:
Permite la reparación de un DIMM DDR4 sin quitarlo del sistema; todos los DIMM DDR4 de origen Dell admiten la autorreparación de la memoria. Nota: Los servidores AMD PowerEdge 14G no tienen esta funcionalidad de autorreparación.
Utiliza filas de repuesto disponibles diseñadas en la DRAM donde una fila defectuosa se reemplaza permanentemente por una fila buena conocida por un fusible eléctrico.
El reentrenamiento de memoria posterior optimiza los "ojos de datos" mediante la recalibración de los puntos centrales para garantizar que el bus de memoria funcione en el nivel más alto de integridad de señalización.
En el caso de los eventos de umbral corregibles con el ajuste del BIOS "Registro de errores corregible" Habilitado, si se producen eventos de umbral de memoria, Dell recomienda reiniciar según el programa de mantenimiento regular del cliente para permitir que se produzca la autorreparación o autocorrección de la memoria programada. Después del reinicio, se registrarán eventos de autorreparación correcta o incorrecta para los módulos DIMM asociados.
Con la configuración Di del BIOS "Registro de errores corregible" habilitada, Dell recomienda reiniciar según el programa de mantenimiento regular del cliente. Tras el reinicio, todas las operaciones de autorreparación programadas se ejecutarán automáticamente. El sistema registrará un evento (eventos de tipo MEM0805 o MEM7114) si la operación de autorreparación/autocorrección no se realizó correctamente y recomienda reemplazar físicamente el DIMM afectado.
Recomendación: El equipo de ingeniería de memoria de Dell EMC recomienda que los clientes del servidor PowerEdge con versiones anteriores del BIOS (versiones del BIOS anteriores al bloque de marzo de 2022) adopten cambiar el ajuste del BIOS "Registro de errores corregibles" a Deshabilitado. Esto eliminará los eventos esporádicos de umbral de memoria corregible (como eventos de tipo MEM0802 o MEM5104) en toda la infraestructura del servidor que recomiendan reinicios del servidor para permitir la autorreparación o la autocorrección. Como se mencionó anteriormente, todas las operaciones de autorreparación o autocorrección programadas se ejecutarán automáticamente cuando se reinicie el servidor y se informarán todas las fallas.
La configuración del BIOS "Registro de errores corregible" se puede cambiar reiniciando el servidor con la configuración F2 o a través de la GUI de iDRAC.
Para cambiar la configuración del BIOS mediante F2 Settings:
Reinicie los servidores deteniéndose en la configuración de F2
En la selección BIOS Settings -> Memory Settings, cambie "Correctable Error Logging" a deshabilitado.
Guarde la configuración del BIOS y salga de la configuración de F2
Para cambiar la configuración del BIOS mediante la GUI de iDRAC:
Inicie sesión en la GUI de iDRAC
En Configuration -> BIOS Settings, expanda la sección Memory Settings
Cambie el ajuste "Registro de errores corregibles" a deshabilitado
Haga clic en el botón Aplicar para guardar la configuración de la memoria
No olvide seleccionar el botón Aplicar y reiniciar (para reiniciar inmediatamente) o el botónEn el siguiente reinicio para aplicar los cambios en el BIOS.
Los artículos y la documentación técnica de la base de conocimientos relacionados con la memoria existentes se actualizarán para reflejar este cambio recomendado.
NOTA: La mensajería aprobada orientada al cliente se adjunta como un archivo a este artículo: "Administración de avisos de errores corregibles de diciembre de 2021 v1.pdf".
Este artículo se actualizará a medida que haya nueva información disponible.