Há melhorias e aprimoramentos contínuos no BIOS do Dell PowerEdge para melhorar as mensagens de eventos de memória, o tratamento de erros e a "autocorreção" que ocorrem após uma reinicialização do servidor. Isso evita a necessidade de uma janela de manutenção agendada ou a presença no local para substituir um DIMM de memória DDR4 que estava registrando eventos de erro.
Existem dois aprimoramentos principais de "autocorreção" relacionados à memória do BIOS que foram implementados para servidores PowerEdge com DDR4 executando BIOS versão 2.1.x e posteriores. Esses aprimoramentos alteram as etapas ou ações recomendadas a serem tomadas se ocorrerem eventos de memória e forem registrados no log do LifeCycle.
O novo treinamento de memória, que ocorre durante a inicialização (logo nas etapas de configuração da memória), otimiza a temporização e a definição de margem do sinal para cada DIMM/slot para melhor acesso. As características de temporização e margem do sinal de memória de um DIMM podem mudar ao longo do tempo por vários motivos diferentes:
Anteriormente, a detecção de atualizações do BIOS ou alterações de configuração da memória fazia com que o novo treinamento da memória ocorresse durante a inicialização subsequente. A partir da versão 2.1.x do BIOS, foram adicionados "acionadores" extra de erros de memória corrigíveis e não corrigíveis para o novo treinamento agendado:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Se qualquer um desses erros for incluído nos logs do SEL/LifeCycle, o novo treinamento de memória será agendado para a próxima reinicialização (a quente ou a frio). O BIOS força automaticamente uma reinicialização a frio, independentemente do que foi iniciado.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Esse erro de vários bits pode resultar na reinicialização do servidor devido a um erro fatal se o sistema operacional não conseguir lidar com esse erro. O novo treinamento de memória ocorrerá automaticamente durante essa inicialização. Se o erro de vários bits ocorrer em uma localização de memória não crítica e o sistema operacional conseguir lidar com o erro, uma reinicialização precisará ser programada.
O novo treinamento de memória durante o POST pode "autocorrigir" o DIMM com falha e o slot associado otimizando a temporização e a definição de margem do sinal. Não é necessário substituir o DIMM devido a esses erros, a menos que ocorra falha no novo treinamento da memória (UEFI0106) durante a inicialização ou se os mesmos erros continuem ocorrendo.
O segundo aprimoramento de memória de "auto-recuperação" é PPR. O PPR repara um local de memória com falha desativando o local ou endereço na camada de hardware, permitindo que uma linha de memória reserva seja usada. O número exato de linhas de memória sobressalentes disponíveis depende do dispositivo DRAM e do tamanho do DIMM.
Anteriormente, essa funcionalidade era limitada ao processo de produção. Assim como nos aprimoramentos do novo treinamento de memória mencionados anteriormente, existem certos erros de memória corrigíveis que resultam no agendamento do PPR em um slot de DIMM específico para a próxima reinicialização (quente ou fria). O BIOS força automaticamente uma reinicialização a frio, independentemente do que foi iniciado. Como a operação do PPR é agendada em um slot do DIMM específico, NÃO altere as localizações do slot do DIMM até que a operação seja executada. Exemplos de erros:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Qualquer um desses eventos nos logs resultará no agendamento do PPR para a próxima reinicialização (quente ou fria) no início da fase Configuração da memória.
Após a reinicialização, verifique se a operação do PPR foi executada com sucesso. Um exemplo de operação bem-sucedida do PPR é semelhante ao seguinte:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Um white paper recém-publicado (versão 1.0) descrevendo os recursos de confiabilidade, disponibilidade e facilidade de manutenção (RAS) relacionados à memória do servidor Dell PowerEdge agora está disponível descrevendo os vários recursos e capacidades RAS disponíveis nos servidores PowerEdge - Erros de memória e Recursos RAS de memória do servidor Dell EMC PowerEdge YX4X.
Para obter mais informações sobre eventos de limite de erro corrigíveis, consulte Servidores Intel/AMD PowerEdge 14G e 15G: Memória DDR4: gerenciando eventos de limite de erro corrigíveis.Atualizado em 24 de abril de 2020
A Dell continua aprimorando nossos recursos de "autocorreção". A seção a seguir lista as atualizações e os aprimoramentos associados às diferentes versões do BIOS.
BIOS 2.1.x – Publicação inicial do artigo dos recursos de "autocorreção" disponíveis a partir do BIOS 2.1.6 e superior, incluindo exemplos de mensagens de erro, bem como ações recomendadas.
Alterações no BIOS 2.4.x ou mais recente (dezembro de 2019)
BIOS 2.5.x e alterações mais recentes (fevereiro de 2020)
Atualizado em 10 de julho de 2020
Alterações no BIOS 2.7.x ou mais recente (bloco de versões do BIOS de julho de 2020; meados de julho para publicação na Web)
ATUALIZADO em 13 de janeiro de 2021
Alterações no BIOS 2.8.2 ou mais recente (bloco de versões do BIOS de setembro de 2020)
Há outras melhorias de recursos RAS sendo avaliadas para inclusão em futuras atualizações do BIOS.
Este artigo será atualizado à medida que novas informações forem disponibilizadas.
Consulte também: Orientação sobre solução de problemas de memória por meio de testes de troca – Solução de problemas de erros de memória em sistemas PowerEdge por meio de testes de
trocaDownloads e drivers: Drivers e downloads | Dell EUA