Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Solucionando erros de memória em sistemas PowerEdge por meio de testes de troca

Summary: Trocando DIMMs de memória para solucionar erros de memória em servidores Dell Technologies PowerEdge.

This article applies to   This article does not apply to 

Symptoms

Nota: Este artigo não se aplica a sistemas mais recentes com o processador escalável Xeon. Para sistemas mais recentes, consulte este artigo O que é autocorreção DDR4 em servidores Dell PowerEdge com processadores escaláveis Intel Xeon.

Solução de problemas de erros de memória em sistemas PowerEdge por meio de testes de troca

Quando um erro de bit único (SBE) e/ou erro de vários bits (MBE) é relatado em um ou mais locais de DIMM de memória, a causa pode não estar no próprio DIMM, portanto, alguma solução de problemas simples deve ser executada para determinar exatamente onde está a falha. Consulte a Figura 1 para ver um exemplo de erros de memória exibidos na interface do iDRAC em um R715.

Logs do iDRAC 6
Figura 1: Erros de memória conforme exibido nos registros do iDRAC 6 (Somente em inglês)

Isolar problemas de memória significa trocar DIMMs de memória em diferentes soquetes de memória, canais, bancos e controladores. Há várias maneiras de trocar os DIMMs para reduzir a falha. Talvez seja necessário usar mais de um desses métodos para identificar o DIMM ou o soquete com defeito. Abaixo, você encontra uma representação desses métodos. Para tornar a explicação simples, assumimos que o DIMM defeituoso é A1 ou um dos conjuntos marcados em azul nas imagens.

Trocar DIMMs em grupos (por canal ou banco) em vez de individualmente é o melhor método para identificar o DIMM ou DIMMs com falha.
Depois que um grupo de DIMMs for identificado como contendo o DIMM ou DIMMs com falha, a movimentação de DIMMs únicos pode ser usada para identificar quais DIMMs falharam.


Método 1:

Trocar o DIMM A1 (marcado em azul) pelo DIMM A9 (marcado em vermelho) para testar o DIMM em um canal e um banco de memória diferentes

DIMM A1 para A9
Figura 2: Trocando o DIMM A1 por DIMM A9
 

Método 2:

Trocar o DIMM A1 (marcado em azul) pelo DIMM B1 (marcado em vermelho) colocará o DIMM em um controlador de memória (CPU) diferente.

DIMM A1 para B1
Figura 3: Trocando o DIMM A1 por DIMM B1
 

Método 3:

Trocar todo o banco de DIMMs (A1, A2, A3 – marcado em azul) por outro banco (B1, B2, B3 – marcado em vermelho) testa todo o banco de DIMMs em um novo banco, em um novo controlador de memória.

DIMMA 123 para B123
Figura 4: Trocando DIMMs A1, A2 e A3 por DIMMs B1, B2 e B3
 

Método 4

Trocar um canal inteiro de DIMMs (A1, A4, A7 – marcado em azul) por outro canal (B1, B2, B3 – marcado em vermelho), testa todo o canal de DIMMs em um novo canal e em um novo controlador de memória.

DIMM A147 para B147
Figura 5: Trocando DIMMs A1, A4 e A7 por DIMMs B1, B4 e B7
 

Interpretando os resultados depois de trocar os DIMMs

Geralmente, os erros de DIMM tendem a seguir os DIMMs identificados nos erros. Por exemplo, com um SBE relatando no DIMM A1, trocar esse DIMM por outro DIMM resulta em uma das seguintes situações:

  1. A mensagem de erro não é mais relatada e o problema é resolvido
  •   Isso indica que recolocar a memória resolveu o problema
  1. A mensagem de erro seguirá o DIMM (o DIMM A1 é trocado pelo DIMM B1 e, agora, as mensagens de erro são reportadas para o DIMM B1)
  • Isso indica que, provavelmente, o DIMM apresenta falha e requer substituição.
  1. A mensagem de erro seguirá o soquete do DIMM (o DIMM A1 é trocado pelo DIMM B1, e as mensagens de erro ainda são reportadas para o DIMM A1)
  • Isso indica que a placa de sistema ou a CPU provavelmente apresenta falha
  • A troca de CPUs confirma qual componente precisa ser substituído
  • Se o problema seguir a CPU (a mensagem de erro se move após a troca das CPUs), substitua a CPU
  • Se o problema persistir no soquete DIMM, substitua a placa de sistema
  1. A mensagem de erro não seguirá o DIMM nem o soquete (o erro é relatado para um DIMM diferente após a troca)
  • Isso indica que, provavelmente, a falha está em um DIMM diferente
 
Nota: Recomendamos também manter os níveis de firmware atualizados, pois isso pode reduzir o risco de receber erros de memória e prolongar a vida útil dos DIMMs.
Para obter mais informações, consulte o artigo da base de conhecimento Dell Dell Repository Manager (DRM).

Cause

Não aplicável

Resolution

Não aplicável

Affected Products

PowerEdge C1100, PowerEdge C2100, PowerEdge C5125, PowerEdge C5220, PowerEdge C5230, PowerEdge C6105, PowerEdge C6145, PowerEdge C6220, PowerEdge C6220 II, PowerEdge c6320

Products

PowerEdge c6320p, Poweredge FC430, Poweredge FC630, Poweredge FC830, PowerEdge M420, PowerEdge M520, PowerEdge M520 (for PE VRTX), PowerEdge M600, PowerEdge M605, PowerEdge M610, PowerEdge M610x, PowerEdge M620, PowerEdge M620 (for PE VRTX) , PowerEdge M630, PowerEdge M630 (for PE VRTX), PowerEdge M710, PowerEdge M710HD, PowerEdge M805, PowerEdge M820, PowerEdge M820 (for PE VRTX), PowerEdge M830, PowerEdge M830 (for PE VRTX), PowerEdge M905, PowerEdge M910, PowerEdge M915, PowerEdge R200, PowerEdge R210, PowerEdge R210 II, PowerEdge R220, PowerEdge R230, PowerEdge R300, PowerEdge R310, PowerEdge R320, PowerEdge R330, PowerEdge R410, PowerEdge R415, PowerEdge R420, PowerEdge R430, PowerEdge R510, PowerEdge R515, PowerEdge R520, PowerEdge R530, PowerEdge R530xd, PowerEdge R610, PowerEdge R620, PowerEdge R630, PowerEdge R710, PowerEdge R715, PowerEdge R720, PowerEdge R720XD, PowerEdge R730, PowerEdge R730xd, PowerEdge R805, PowerEdge R810, PowerEdge R815, PowerEdge R820, PowerEdge R830, PowerEdge R900, PowerEdge R905, PowerEdge R910, PowerEdge R920, PowerEdge R930, PowerEdge T100, PowerEdge T105, PowerEdge T110, PowerEdge T110 II, PowerEdge T130, PowerEdge T20, PowerEdge T30, PowerEdge T300, PowerEdge T310, PowerEdge T320, PowerEdge T330, PowerEdge T410, PowerEdge T420, PowerEdge T430, PowerEdge T605, PowerEdge T610, PowerEdge T620, PowerEdge T630, PowerEdge T710 ...