Servidores Intel/AMD PowerEdge 14G e 15G: Memória DDR4: gerenciando eventos de limite de erro corrigíveis
Summary:
Recomendações atualizadas para clientes ao gerenciar eventos de limite de erro corrigíveis (MEM0802 ou MEM5104) em RDIMMs DDR4 ou LRDIMMs instalados em servidores PowerEdge 14G e 15G
baseados em Intel, bem como em servidores PowerEdge 15G baseados em AMD.
Nota: Este artigo não se aplica aos servidores PowerEdge baseados em AMD 14G, como as plataformas 64x5 ou 74x5, pois eles não têm esse recurso de reparo pós-pacote/autocorreção, mesmo que o próprio DIMM seja compatível com ele.
...
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Por meio da evolução dos recursos de RAS (confiabilidade, acessibilidade e facilidade de manutenção) em toda a memória de classe empresarial, a Dell adotou uma abordagem conservadora na geração de relatórios de erros para oferecer transparência aos clientes. À medida que essa evolução continua, o mesmo acontece com a abordagem da Dell aos relatórios de erros, que permite o foco em avisos que exigem uma resposta mais urgente, em vez de avisos que são principalmente informativos.
À medida que as geometrias de memória baseadas em DRAM continuam a diminuir, fornecendo aos clientes o maior desempenho exigido, espera-se um número cada vez maior de erros corrigíveis como parte natural do dimensionamento uniforme.
Cause
No setor global de servidores, há um entendimento cada vez mais aceito, compartilhado pela Dell, de que alguns erros corrigíveis por DIMM são inevitáveis e não garantem inerentemente a substituição de um módulo de memória ou mesmo uma reinicialização imediata para iniciar a autocorreção.
Resolution
Continuar operando um sistema relatando erros corrigíveis sem uma reinicialização para autocorreção não aumenta significativamente o risco de encontrar erros incorrigíveis que podem levar a um tempo de inatividade não planejado. Na verdade, outros na indústria comunicaram publicamente que seu manuseio de memória não relata erros corrigíveis.
No BIOS 14G Intel PowerEdge versão 2.5.4 e mais recente, foi adicionada uma configuração do BIOS chamada "Correctable Error Logging" (Log de erros corrigíveis) para permitir que os clientes desativem os relatórios de erros corrigíveis, se assim desejarem, e muitos o fizeram. O BIOS continuará a agendar a autocorreção para eventos de limite corrigíveis, mesmo sem o registro. Essa autocorreção agendada ocorrerá automaticamente durante a reinicialização subsequente do sistema.
Para ficar mais alinhado com o setor e o feedback contínuo dos clientes, a partir de março de 2022, as atualizações do BIOS do Dell PowerEdge alterarão a configuração "Correctable Error Logging" do BIOS para desabilitada por padrão. Essa opção do BIOS pode ser reativada para clientes que desejam continuar a ver eventos corrigíveis de limite de memória. As versões do BIOS com esta alteração de configuração do BIOS incluída são:
Plataformas Intel 14G - BIOS versões 2.13.3 ou mais recentes
Plataformas AMD 15G - BIOS versões 2.6.5 ou mais recentes
Plataformas Intel 15G - BIOS versões 1.5.5 ou mais recentes.
Os benefícios da autocorreção do DIMM DDR4 por meio da reinicialização do sistema:
Permite o reparo de um DIMM DDR4 sem remoção do sistema; Todos os DIMMs DDR4 fornecidos pela Dell são compatíveis com a autocorreção de memória. Nota: os servidores AMD PowerEdge 14G não têm esse recurso de autocorreção.
Utiliza linhas sobressalentes disponíveis projetadas na DRAM, onde uma fileira ruim é permanentemente substituída por uma fileira em boas condições por fusão elétrica.
O novo treinamento de memória subsequente otimiza os "olhos de dados" recalibrando os pontos centrais para garantir que o barramento de memória opere no nível mais alto de integridade de sinalização.
Para eventos de limite corrigíveis com a configuração BIOS "Correctable Error Logging" ativada, se ocorrerem eventos de limite de memória, a Dell recomenda reinicializar no agendamento de manutenção regular do cliente para permitir que a memória programada ocorra autocorreção ou autocorreção. Após a reinicialização, os eventos de autocorreção bem-sucedidos ou malsucedidos serão registrados para os DIMMs associados.
Com a configuração do BIOS "Correctable Error Logging" Dativada, a Dell recomenda a reinicialização no agendamento de manutenção regular do cliente. Após a reinicialização, todas as operações de autocorreção agendadas serão executadas automaticamente. O sistema registrará um evento (MEM0805 ou eventos do tipo MEM7114) se a operação de autocorreção/autocorreção não tiver sido bem-sucedida e recomendará ainda a substituição física do DIMM afetado.
Recomendação: a engenharia de memória da Dell EMC recomenda que os clientes do servidor PowerEdge com versões mais antigas do BIOS (versões anteriores ao bloco de março de 2022) adotem a alteração da configuração do BIOS "Correctable Error Logging" para Disabled. Isso eliminará os eventos esporádicos de limite de memória corrigíveis (como eventos MEM0802 ou de tipo MEM5104) em toda a infraestrutura de servidor que recomendam reinicializações do servidor para permitir a realização de autocorreção ou autocorreção. Como mencionado anteriormente, todas as operações agendadas de autocorreção ou autocorreção serão executadas automaticamente quando o servidor for reinicializado e quaisquer falhas serão relatadas.
A configuração do BIOS "Correctable Error Logging" pode ser alterada reinicializando o servidor para as configurações F2 ou por meio da GUI do iDRAC.
Para alterar a configuração do BIOS usando as configurações F2:
Reinicialize os servidores parando nas configurações F2
Na seleção BIOS Settings -> Memory Settings, altere a opção "Correctable Error Logging" para "Disabled".
Salve as configurações do BIOS e saia das configurações F2
Para alterar a configuração do BIOS usando a GUI do iDRAC:
Faça login na GUI do iDRAC
Em Configuração -> Configurações do BIOS, expanda a seção Configurações de memória
Altere a configuração "Correctable Error Logging" para desativado
Clique no botão Aplicar para salvar as configurações de memória
Não se esqueça de selecionar o botão Apply and Reboot (para reinicializar imediatamente) ou o botãoNext Reboot para aplicar as alterações do BIOS.
Os artigos e white papers da KB relacionados à memória existente serão atualizados para refletir essa alteração recomendada.
OBSERVAÇÃO: O sistema de mensagens aprovado voltado para o cliente está anexado como um arquivo a este artigo - "Managing Correctable Error Notices Dec 2021 v1.pdf".
Este artigo será atualizado à medida que novas informações forem disponibilizadas.