O iDRAC registra o seguinte evento: Taxa de erro de memória corrigível mem0702 excedida para DIMM (banco/slot)
1. Descrição
2. Solução
3. Mais informações
Um erro de memória corrigível é um erro de bit único que ocorre quando um bit muda erroneamente, de 1 para 0 ou de 0 para 1, durante uma operação de gravação ou leitura. Quando o bit específico em erro é identificado, o erro é corrigido complementando o bit errôneo. Os DIMMs certificados pela Dell executam essa correção automaticamente.
Em casos raros, um servidor pode reinicializar depois que um erro de memória corrigível é registrado no registro do SEL. Isso só é exibido na versão 2.3.x do BIOS.
Exemplo:
A taxa de erro de memória corrigível de advertência MEM0701 foi excedida por DIMM_xx.
A taxa de erro de memória corrigível essencial do MEM0702 foi excedida por DIMM_xx.
Exemplo de registro do LC:
2017-03-07 23:08:02 SYS1003 Reinicialização da CPU do sistema.
2017-03-07 23:08:02 O sistema SYS1001 está desligando.
2017-03-07 23:08:02 MEM0702 Taxa de erro de memória corrigível excedida para DIMM_xx.
Para resolver o problema de reinicialização, o BIOS deve ser atualizado para a versão mais atualizada. Se isso não for possível por motivos operacionais, o BIOS deve ser levado para as versões mínimas, conforme listado abaixo:
R430 | 2.4.2 |
T430 | 2.4.2 |
R530 | 2.4.2 |
T630 | 2.4.2 |
R630 | 2.4.3 |
R730 | 2.4.3 |
R830 | 1.4.2 |
C4130 | 2.4.2 |
C6320 | 2.4.2 |
Todos os blades modulares | 2.4.2 |
Mais informações
Esse problema foi relatado principalmente no PowerEdge R630 e R730, no entanto, o potencial existe em todo o 13G com uma versão do BIOS 2.3.x. Uma alteração foi introduzida na versão 2.3.x do BIOS para registro adicional no Banco de dados de política de segurança (SPD), que introduziu esse problema específico:
"Uma dereferencing de ponteiro NULO no registro SPD aprimorado do BIOS depois que o limite crítico de erro corrigível da memória for excedido, fará com que o sistema verifique ou trave a máquina."
As versões do BIOS cotadas anteriormente para as plataformas afetadas corrigirão o problema de reinicialização do servidor em conjunto com a mensagem de taxa de erro corrigível excedida.
O problema foi relatado principalmente no R630 e no R730. O potencial existe em todos os servidores PowerEdge 13G com o BIOS versão 2.3.x para que o problema ocorra.