iDRAC registra el siguiente evento: MEM0702 Se superó la tasa de errores corregibles de memoria para DIMM (banco/ranura)
1. Descripción
2. Solución
3. Más información
Un error de memoria corregible es un error de un solo bit que se produce cuando un bit cambia erróneamente, de 1 a 0 o de 0 a 1, durante una operación de escritura o lectura. Cuando se identifica el bit específico que tiene el error, el error se corrige complementando el bit erróneo. Las DIMM certificadas por Dell realizan esta corrección automáticamente.
En raras ocasiones, un servidor puede reiniciarse después de que se registre un error de memoria corregible en el registro de SEL. Esto solo se ve en la versión 2.3.x del BIOS.
Ejemplo:
MEM0701 Advertencia Se superó la tasa de errores corregibles de memoria para DIMM_xx.
MEM0702 Se superó la tasa de errores críticos corregibles de memoria para DIMM_xx.
Ejemplo de registro de LC:
2017-03-07 23:08:02 SYS1003 Restablecimiento de la CPU del sistema.
2017-03-07 23:08:02 SYS1001 El sistema se apaga.
2017-03-07 23:08:02 MEM0702 se superó la tasa de errores críticos corregibles de memoria para DIMM_xx.
Para resolver el problema de reinicio, el BIOS se debe actualizar a la versión más actualizada. Si esto no es posible por razones operativas, el BIOS debe actualizarse a las versiones mínimas que se indican a continuación:
R430 | 2.4.2 |
T430 | 2.4.2 |
R530 | 2.4.2 |
T630 | 2.4.2 |
R630 | 2.4.3 |
R730 | 2.4.3 |
R830 | 1.4.2 |
C4130 | 2.4.2 |
C6320 | 2.4.2 |
Todos los blades modulares | 2.4.2 |
Información adicional
Este problema se ha informado principalmente en el PowerEdge R630 y R730; sin embargo, esto es posible en todos los 13G con una versión del BIOS de 2.3.x. Se agregó un cambio en la versión 2.3.x del BIOS para el registro adicional en la Base de datos de políticas de seguridad (SPD) que introdujo este problema en particular:
“El sistema se verifica o se bloquea cuando hay un error de referencia al puntero NULO en el registro de SPD mejorado del BIOS después de que se supera el umbral crítico de errores corregibles de la memoria”.
Con las versiones del BIOS indicadas anteriormente para las plataformas afectadas se solucionará el problema de reinicio del servidor junto con el mensaje de exceso en la tasa de errores corregibles.
El problema se informó principalmente en R630 y R730. El potencial existe en todos los servidores PowerEdge 13G con BIOS versión 2.3.x para que se produzca el problema.