Nota: Este artigo não se aplica a sistemas mais recentes com o processador escalável Xeon. Para sistemas mais recentes, consulte este artigo O que é autocorreção DDR4 em servidores Dell PowerEdge com processadores escaláveis Intel Xeon.
Solução de problemas de erros de memória em sistemas PowerEdge por meio de testes de troca
Quando um erro de bit único (SBE) e/ou erro de vários bits (MBE) é relatado em um ou mais locais de DIMM de memória, a causa pode não estar no próprio DIMM, portanto, alguma solução de problemas simples deve ser executada para determinar exatamente onde está a falha. Consulte a Figura 1 para ver um exemplo de erros de memória exibidos na interface do iDRAC em um R715.
Figura 1: Erros de memória conforme exibido nos registros do iDRAC 6 (Somente em inglês)
Isolar problemas de memória significa trocar DIMMs de memória em diferentes soquetes de memória, canais, bancos e controladores. Há várias maneiras de trocar os DIMMs para reduzir a falha. Talvez seja necessário usar mais de um desses métodos para identificar o DIMM ou o soquete com defeito. Abaixo, você encontra uma representação desses métodos. Para tornar a explicação simples, assumimos que o DIMM defeituoso é A1 ou um dos conjuntos marcados em azul nas imagens.
Trocar DIMMs em grupos (por canal ou banco) em vez de individualmente é o melhor método para identificar o DIMM ou DIMMs com falha.
Depois que um grupo de DIMMs for identificado como contendo o DIMM ou DIMMs com falha, a movimentação de DIMMs únicos pode ser usada para identificar quais DIMMs falharam.
Trocar o DIMM A1 (marcado em azul) pelo DIMM A9 (marcado em vermelho) para testar o DIMM em um canal e um banco de memória diferentes
Figura 2: Trocando o DIMM A1 por DIMM A9
Trocar o DIMM A1 (marcado em azul) pelo DIMM B1 (marcado em vermelho) colocará o DIMM em um controlador de memória (CPU) diferente.
Figura 3: Trocando o DIMM A1 por DIMM B1
Trocar todo o banco de DIMMs (A1, A2, A3 – marcado em azul) por outro banco (B1, B2, B3 – marcado em vermelho) testa todo o banco de DIMMs em um novo banco, em um novo controlador de memória.
Figura 4: Trocando DIMMs A1, A2 e A3 por DIMMs B1, B2 e B3
Trocar um canal inteiro de DIMMs (A1, A4, A7 – marcado em azul) por outro canal (B1, B2, B3 – marcado em vermelho), testa todo o canal de DIMMs em um novo canal e em um novo controlador de memória.
Figura 5: Trocando DIMMs A1, A4 e A7 por DIMMs B1, B4 e B7
Geralmente, os erros de DIMM tendem a seguir os DIMMs identificados nos erros. Por exemplo, com um SBE relatando no DIMM A1, trocar esse DIMM por outro DIMM resulta em uma das seguintes situações:
Não aplicável
Não aplicável