跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: Errores de memoria corregibles de ECC de POWEREdge DIMM

摘要: El servidor Dell 13G/14G publica errores MEMXXXX en el registro de eventos de iDRAC. Este evento puede provocar que el nodo se bloquee o se produzca una excepción de comprobación de máquina. ¿Qué debería hacer? ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Tiene un servidor 13G o 14G que informa errores de MEM en el registro de eventos de iDRAC.

原因

En la mayoría de los casos, los errores de memoria de ECC son causados por el desplazamiento aleatorio de partículas alfa.  Las partículas alfa son parte de la radiación normal que se produce todos los días.  En ocasiones, una particula alfa hace que un solo electrone de un módulo de memoria dañe los datos.  Los módulos de memoria modernos están diseñados para reconocer este evento y repararlos.  Cada módulo mantiene un contador interno de cuántas veces se repara un error de memoria.  Se establece un umbral en el BIOS que cuando se alcanza alerta al servidor de que la cantidad de eventos de memoria ha superado ese umbral.

Nota: En una situación en la que se encuentre con el id. de mensaje MEM8000 (registro de errores corregibles de memoria deshabilitado para un dispositivo de memoria en la ubicación DIMM_XX) que aparece en aislamiento (es decir, no en un intervalo de tiempo similar) a los mensajes MEM0005/MEM0701/MEM0702 correspondientes, no se programa una PPR para el próximo reinicio.

El ID de mensaje MEM8000 en aislamiento o con un MCE correspondiente (excepción de comprobación de máquina) es una indicación de una falla general del módulo DIMM y no es una situación en la que inicialmente se desborden los depósitos corregibles o incorregibles. Este tipo de evento de memoria se debe tratar como una falla de DIMM y el módulo DIMM indicado se debe reemplazar lo antes posible.

解决方案

¿Qué es la "autorreparación" de DDR4? 
¿Cómo cambian estas funcionalidades de "autorreparación" (mejoras del BIOS) de DDR4 las acciones recomendadas de soporte técnico y del cliente cuando se detectan errores de memoria en un servidor?

Hay dos mejoras principales del BIOS de "autorreparación" relacionadas con la memoria que se implementaron para los servidores PowerEdge con DDR4 que ejecutan la versión 2.1.x del BIOS y versiones más recientes. Estas mejoras cambian los pasos o las acciones recomendados que se deben realizar si se producen errores de memoria y se registran en vCenter, VxFM, Dial Home o en el registro de LifeCycle.

Nota: Si recibe errores de memoria con DDR4 y está ejecutando una versión del BIOS anterior a 2.1.x, actualice el BIOS a la revisión más reciente para incluir mejoras de autorreparación de memoria.  A continuación, reinicie el nodo para continuar con (PPR), consulte la sección Resolución para obtener más detalles

Nota: Los pasos actuales de solución de problemas de memoria incorporan la transferencia de dimm defectuosos a una ranura diferente para confirmar si los errores siguen al DIMM o si permanecen en la ranura de DIMM.

Si el nodo 13G ejecuta bios 2.8.x o superior, el primer paso recomendado es reiniciar o reiniciar (sin mover los DIMM a una ranura diferente). Esto permite que se ejecuten las nuevas mejoras del BIOS, lo que potencialmente resuelve (autorreparación) los errores de DIMM sin necesidad de reemplazos de DIMM.

Si el nodo 14G ejecuta la versión del BIOS 2.4.8 o superior, el primer paso recomendado es reiniciar o reiniciar (sin mover los DIMM a una ranura diferente). Esto permite que se ejecuten las nuevas mejoras del BIOS, lo que potencialmente resuelve (autorreparación) los errores de DIMM sin necesidad de reemplazos de DIMM.

Actualice el BIOS a (2.8.x o superior para 13G) y (2.1.x o superior para 14G) a fin de habilitar las mejoras de recapacitación de memoria para servidores con RAM DDR4 instalada: recapacitación de memoria que se produce durante el arranque, optimice el tiempo/márgenes de la señal para cada DIMM/ranura para obtener el mejor acceso. Las características de sincronización de un DIMM pueden cambiar por varias razones diferentes:

los ejemplos incluyen, entre otros:
1. Cambios en la configuración de la memoria del servidor
2. El BIOS cambia
3. Diferentes temperaturas de funcionamiento del servidor o DIMM
4. La antigüedad general del DIMM anteriormente, las actualizaciones del BIOS o los cambios en la configuración de

la memoria que se detectaban habrían dado lugar a una readaptación de la memoria durante el arranque posterior. A partir del BIOS 2.1.x (14G) y 2.8.x (13G), se agregaron "activadores" adicionales de errores de memoria corregibles e incorregibles para la recapacitación programada:

Advertencia: MEM0701: "Correctable memory error rate exceeded for DIMM_XX".
Crítico- MEM0702: "Correctable memory error rate exceeded for DIMM_XX".
Critical - MEM0005: "Persistent correctable memory error limit reached for a memory device at location(s) XX".

Cualquiera de los errores anteriores registrados en los registros de eventos de VC/dial home/SEL/LifeCycle provoca que la readaptación de la memoria se programe para el próximo reinicio (en caliente o en frío), el BIOS fuerza automáticamente un reinicio en frío, independientemente de lo que se inicie.

Crítico - MEM0001: "Se detectaron errores de memoria de varios bits en el dispositivo de memoria en las ubicaciones DIMM_XX".

MEM0001 hace que el servidor se reinicie debido al error irrecuperable. La readaptación de la memoria se produce automáticamente durante ese arranque.

Con cualquiera de estos errores de memoria corregibles o incorregibles (de varios bits), la readaptación resultante de la memoria durante el reinicio puede "autorreparar" el DIMM fallido mediante la optimización de la sincronización/márgenes de la señal para cada DIMM/ranura. No es necesario reemplazar el DIMM para estos errores, a menos que falle la readaptación de la memoria (UEFI0106) durante el arranque o estos mismos errores continúen ocurriendo.

2. Reparación posterior al paquete (PPR): la segunda mejora de la memoria de "autorreparación" da como resultado la reparación de una ubicación de memoria fallido en un DIMM mediante la deshabilitación de la ubicación o la dirección en la capa de hardware, lo que permite utilizar una fila de memoria de repuesto en su lugar. La cantidad exacta de filas de memoria de reserva disponible depende del dispositivo DRAM y del tamaño del módulo DIMM.


Anteriormente, esta funcionalidad se limitaba al proceso de fabricación. Al igual que con las mejoras de reentrenamiento de la memoria mencionadas anteriormente, hay algunos errores de memoria que se pueden corregir, lo que provocará que la PPR se programe en una ranura DIMM específica para el próximo reinicio (en caliente o en frío). El BIOS fuerza automáticamente un reinicio en frío, independientemente de lo que se inicie. Dado que la operación de PPR está programada en una ranura DIMM específica, NO cambie las ubicaciones de las ranuras dimm hasta que se ejecute la operación PPR. Algunos ejemplos de errores son:

Advertencia- MEM0701: "Correctable memory error rate exceeded for DIMM_XX".
Crítico- MEM0702: "Correctable memory error rate exceeded for DIMM_XX".
Critical - MEM0005: "Persistent correctable memory error limit reached for a memory device at location(s) XX".

Cualquiera de los errores anteriores que se registran en el registro de eventos de VC/Dial home/SEL/LifeCycle hace que la reparación posterior al paquete se programe para el próximo reinicio (en caliente o en frío).

Después del reinicio, verifique que la operación de PPR se haya realizado correctamente. Un ejemplo de una operación de PPR correcta es similar al ID de

mensaje MEM9060: "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier".


No es necesario un reemplazo del módulo DIMM para estos errores de memoria corregibles, a menos que falle la operación de la PPR después del reinicio. Un ejemplo de un mensaje de PPR fallido es:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X".
 

其他信息


受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。