Solução de problemas de erros de memória em sistemas PowerEdge por meio de testes de troca
Quando um erro de bit único (SBE) e/ou erro de vários bits (MBE) é relatado em um ou mais locais de DIMM de memória, a causa pode não estar no próprio DIMM, portanto, alguma solução de problemas simples deve ser executada para determinar exatamente onde está a falha. Consulte a Figura 1 para ver um exemplo de erros de memória exibidos na interface do iDRAC em um R715.
Figura 1: Erros de memória conforme exibido nos registros do iDRAC 6 (Somente em inglês)
Isolar problemas de memória significa trocar DIMMs de memória em diferentes soquetes de memória, canais, bancos e controladores. Há várias maneiras de trocar os DIMMs para reduzir a falha. Talvez seja necessário usar mais de um desses métodos para identificar o DIMM ou o soquete com defeito. Abaixo, você encontra uma representação desses métodos. Para tornar a explicação simples, assumimos que o DIMM defeituoso é A1 ou um dos conjuntos marcados em azul nas imagens.
Trocar DIMMs em grupos (por canal ou banco) em vez de individualmente é o melhor método para identificar o DIMM ou DIMMs com falha. Depois que um grupo de DIMMs for identificado como contendo o DIMM ou DIMMs com falha, a movimentação de DIMMs únicos pode ser usada para identificar quais DIMMs falharam.
Método 1:
Trocar o DIMM A1 (marcado em azul) pelo DIMM A9 (marcado em vermelho) para testar o DIMM em um canal e um banco de memória diferentes
Figura 2: Trocando o DIMM A1 por DIMM A9
Método 2:
Trocar o DIMM A1 (marcado em azul) pelo DIMM B1 (marcado em vermelho) colocará o DIMM em um controlador de memória (CPU) diferente.
Figura 3: Trocando o DIMM A1 por DIMM B1
Método 3:
Trocar todo o banco de DIMMs (A1, A2, A3 – marcado em azul) por outro banco (B1, B2, B3 – marcado em vermelho) testa todo o banco de DIMMs em um novo banco, em um novo controlador de memória.
Figura 4: Trocando DIMMs A1, A2 e A3 por DIMMs B1, B2 e B3
Método 4
Trocar um canal inteiro de DIMMs (A1, A4, A7 – marcado em azul) por outro canal (B1, B2, B3 – marcado em vermelho), testa todo o canal de DIMMs em um novo canal e em um novo controlador de memória.
Figura 5: Trocando DIMMs A1, A4 e A7 por DIMMs B1, B4 e B7
Interpretando os resultados depois de trocar os DIMMs
Geralmente, os erros de DIMM tendem a seguir os DIMMs identificados nos erros. Por exemplo, com um SBE relatando no DIMM A1, trocar esse DIMM por outro DIMM resulta em uma das seguintes situações:
A mensagem de erro não é mais relatada e o problema é resolvido
Isso indica que recolocar a memória resolveu o problema
A mensagem de erro seguirá o DIMM (o DIMM A1 é trocado pelo DIMM B1 e, agora, as mensagens de erro são reportadas para o DIMM B1)
Isso indica que, provavelmente, o DIMM apresenta falha e requer substituição.
A mensagem de erro seguirá o soquete do DIMM (o DIMM A1 é trocado pelo DIMM B1, e as mensagens de erro ainda são reportadas para o DIMM A1)
Isso indica que a placa de sistema ou a CPU provavelmente apresenta falha
A troca de CPUs confirma qual componente precisa ser substituído
Se o problema seguir a CPU (a mensagem de erro se move após a troca das CPUs), substitua a CPU
Se o problema persistir no soquete DIMM, substitua a placa de sistema
A mensagem de erro não seguirá o DIMM nem o soquete (o erro é relatado para um DIMM diferente após a troca)
Isso indica que, provavelmente, a falha está em um DIMM diferente
Nota: Recomendamos também manter os níveis de firmware atualizados, pois isso pode reduzir o risco de receber erros de memória e prolongar a vida útil dos DIMMs.
Para obter mais informações, consulte o artigo da base de conhecimento Dell Dell Repository Manager (DRM).