VxFlex-IR: Erros de memória corrigíveis de ECC de DIMM do PowerEdge

摘要: O servidor Dell 13G/14G está publicando erros MEMXXXX no registro de eventos do iDRAC. Esse evento pode ter feito o nó travar ou causado uma exceção de verificação de máquina. O que você deve fazer? ...

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

症状

Você tem um nó 13G ou 14G que reporta erros MEM no registro de eventos do iDRAC.

O que você pode fazer para resolver o problema sem precisar substituir o hardware ou agendar uma visita do CE?

O que é a "autocorreção" de DDR4?
Como esses recursos de autocorreção de DDR4 (aprimoramentos do BIOS) mudam as ações recomendadas para o cliente e o suporte técnico quando erros de memória são encontrados em um servidor?

Há dois aprimoramentos principais de autocorreção relacionada à memória no BIOS, implementados em servidores PowerEdge com memória DDR4 que executam o BIOS na versão 2.1.x ou mais recente. Esses aprimoramentos alteram as etapas/ações recomendadas casso erros de memória ocorram e sejam registrados em registros de eventos vCenter, VxFM, dial-home ou ciclo de vida

Nota: Se você estiver recebendo erros de memória na DDR4 e estiver executando uma versão do BIOS inferior à 2.1.x, atualize o BIOS para a versão mais recente a fim de incluir os aprimoramentos de autocorreção de memória. Em seguida, reinicialize o nó para continuar com o (PPR). Consulte a seção de resolução para obter mais detalhes

Nota: As etapas de solução de problemas de memória atuais movem os DIMMs com falha para um slot diferente a fim de confirmar se os erros seguem o DIMM ou se permanecem no slot de DIMM.

Se o nó do 13G estiver executando o BIOS 2.8. x ou superior, a primeira etapa recomendada será uma reinicialização/um reinício (sem mover os DIMMs para um slot diferente). Ao permitir que os novos aprimoramentos do BIOS sejam executados, possivelmente os erros de DIMM serão corrigidos (autocorreção), sem precisar substituir o DIMM.

Se o nó do 14G estiver executando o BIOS versão 2.4.8 ou superior, a primeira etapa recomendada será uma reinicialização/um reinício (sem mover os DIMMs para um slot diferente). Ao permitir que os novos aprimoramentos do BIOS sejam executados, os erros do DIMM podem ser resolvidos (autocorreção) sem que seja necessário substituir nenhum DIMM.

原因

Na maioria das vezes, os erros de memória ECC são causados por bombardeios aleatórios de partículas alfa. As partículas alfa fazem parte da radiação normal diária. Ocasionalmente, uma partícula alfa pode derrubar um único elétron de um módulo de memória, corrompendo os dados. Os módulos de memória modernos foram projetados para reconhecer esse evento e repará-lo. Cada módulo mantém um contador interno que contabiliza quantas vezes o erro de memória foi reparado. Um limite é definido no BIOS. Quando ele é atingido, um alerta é enviado ao servidor informando que o número de eventos de memória ultrapassou esse limite.

解决方案

Faça upgrade do BIOS para a versão (2.8.x ou superior para 13G) e (2.1.x ou superior para 14G) para habilitar os aprimoramentos do novo treinamento de memória para servidores com a RAM DDR4 instalada. O novo treinamento de memória que ocorre durante a inicialização otimiza o tempo/a margem do sinal para cada DIMM/slot a fim de melhorar o acesso. As características de tempo de um DIMM podem ser alteradas por vários motivos diferentes:

alguns exemplos incluem, sem limitação:
1. Alterações na configuração de memória do servidor
2. Alterações do BIOS
3. Diferentes temperaturas operacionais do servidor ou do DIMM
4. A idade geral do DIMM

Anteriormente, a detecção das atualizações do BIOS ou das alterações de configuração da memória fazia com que o novo treinamento de memória ocorresse durante a inicialização subsequente. A partir do BIOS 2.1.x (14G) e 2.8.x (13G), outros "acionadores" de erros de memória corrigíveis e não corrigíveis foram adicionados para agendar o novo treinamento:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Quaisquer erros mencionados acima, registrados em registros de eventos VC/dial-home/SEL/ciclo de vida farão com que o novo treinamento de memória seja agendado para a próxima reinicialização (quente ou fria). O BIOS forçará uma reinicialização fria, independentemente do que foi iniciado.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001 resulta na reinicialização do servidor devido a um erro fatal. O novo treinamento de memória ocorrerá automaticamente durante essa inicialização.

Com qualquer um desses erros de memória (de vários bits) corrigíveis ou não corrigíveis, o novo treinamento de memória resultante que ocorrer durante a reinicialização/o reinício pode "corrigir automaticamente" o DIMM com falha por meio da otimização do tempo/da margem de sinal para cada DIMM/slot. Não é necessário substituir o DIMM por causa desses erros, a menos que o novo treinamento de memória (UEFI0106) falhe durante a inicialização ou que os mesmos erros continuem ocorrendo.

2. Reparo Pós-Pacote (PPR): o segundo aprimoramento de memória com "autocorreção" resulta no reparo de um local de memória com falha em um DIMM por meio da desativação da localização/do endereço na camada de hardware, permitindo que uma linha de memória sobressalente seja usada. O número exato de linhas de memória sobressalentes disponíveis depende do dispositivo de DRAM e do tamanho do DIMM.
Anteriormente, essa funcionalidade estava limitada ao processo de fabricação. Assim como ocorre com os aprimoramentos do novo treinamento de memória mencionados anteriormente, existem certos erros de memória corrigíveis que resultarão no agendamento do PPR em um slot do DIMM específico na próxima reinicialização (quente ou fria). O BIOS forçará automaticamente uma reinicialização a frio, independentemente do que foi iniciado. Como a operação do PPR é agendada em um slot do DIMM específico, NÃO altere as localizações do slot do DIMM até que a operação seja executada. Exemplos de erro:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Quaisquer erros mencionados acima, registrados em registros de eventos VC/dial-home/SEL/ciclo de vida farão com que o Reparo pós-pacote seja agendado para a próxima reinicialização (quente ou fria).

Após a reinicialização, verifique se a operação de PPR foi realizada com êxito. Um exemplo de operação de PPR bem-sucedida será semelhante a:

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Não será necessário substituir o DIMM no caso desses erros de memória corrigíveis, a menos que a operação de PPR falhe após a reinicialização. Um exemplo de mensagem de PPR com falha:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

Nota: Em uma situação em que você identificar o ID da mensagem MEM8000 (log de erro de memória corrigível, desativado para um dispositivo de memória no local DIMM_XX), que aparece isolado (isto é, não está em um intervalo de tempo semelhante) de quaisquer mensagens MEM0005/MEM0701/MEM0702 correspondentes, não haverá o agendamento de um PPR para a próxima reinicialização.

O ID da mensagem MEM8000 isolado ou com uma MCE correspondente (machine check exception, exceção de verificação de máquina) indica uma falha geral do módulo DIMM e não é uma situação em que os buckets corrigíveis e não corrigíveis serão, a princípio, excedidos. Esse tipo de evento de memória deve ser tratado como uma falha de DIMM, e o módulo de DIMM listado deve ser substituído assim que o cliente puder.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family

文章编号: 000058157

文章类型: Solution

上次修改时间: 15 4月 2021

版本: 4

VxFlex-IR: Erros de memória corrigíveis de ECC de DIMM do PowerEdge

摘要: O servidor Dell 13G/14G está publicando erros MEMXXXX no registro de eventos do iDRAC. Esse evento pode ter feito o nó travar ou causado uma exceção de verificação de máquina. O que você deve fazer? ...

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

欢迎

欢迎访问戴尔

VxFlex-IR: Erros de memória corrigíveis de ECC de DIMM do PowerEdge

摘要: O servidor Dell 13G/14G está publicando erros MEMXXXX no registro de eventos do iDRAC. Esse evento pode ter feito o nó travar ou causado uma exceção de verificação de máquina. O que você deve fazer? ... 扩大查看范围 缩小查看范围

详细文章

症状

原因

解决方案

其它信息

受影响的产品

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

摘要: O servidor Dell 13G/14G está publicando erros MEMXXXX no registro de eventos do iDRAC. Esse evento pode ter feito o nó travar ou causado uma exceção de verificação de máquina. O que você deve fazer? ...