Odstraňování problémů s chybami paměti v systémech PowerEdge pomocí výměny dílů
Pokud je na jednom nebo více umístěních paměťových modulů DIMM hlášena jednobitová (SBE) nebo vícebitová chyba (MBE), příčina nemusí být přímo na modulu DIMM, a je tedy nutné provést jednoduché odstraňování problémů, aby bylo možné přesně určit, v čem spočívá chyba. Na obrázku 1 naleznete příklad chyb paměti, které se objevují v rozhraní řadiče iDRAC na serveru R715.
Obrázek 1: Chyby paměti zobrazené v protokolech řadiče iDRAC 6 (Pouze v angličtině)
Izolovat problémy s pamětí znamená vyměnit paměťové moduly DIMM za jiné paměťové sockety, kanály, banky a řadiče. Existuje několik způsobů, jak můžete vyměnit moduly DIMM a zúžit tak příčinu závady. K přesnějšímu určení vadného modulu DIMM nebo slotu může být nutné použít více než jednu z těchto metod. Níže naleznete znázornění těchto metod. Aby bylo vysvětlení jednoduché, předpokládáme, že vadný modul DIMM je A1 nebo jedna ze sad označených na obrázcích modře.
Nejlepším způsobem, jak identifikovat vadné moduly DIMM nebo moduly DIMM, je výměna modulů DIMM ve skupinách (podle kanálu nebo banky), nikoli jednotlivě. Jakmile identifikujete skupinu modulů DIMM, která obsahuje vadné moduly DIMM nebo moduly, lze k identifikaci kterých modulů DIMM selhání použít přesunutí jednotlivých modulů DIMM.
1. způsob:
Výměnou modulu DIMM A1 (označen modře) za modul DIMM A9 (označen červeně) vyzkoušejte modul DIMM v jiném paměťovém kanálu a bance.
Obrázek 2: Výměna modulu DIMM A1 za modul DIMM A9
2. způsob:
Při výměně modulu DIMM A1 (označeného modře) za modul DIMM B1 (označeného červeně) získáte modul DIMM do zcela jiného paměťového řadiče (CPU).
Obrázek 3: Výměna modulu DIMM A1 za modul DIMM B1
3. způsob:
Při výměně celé banky modulů DIMM (označených A1, A2, A3 – označených modře) za jinou banku (B1, B2, B3 – označenou červeně) se otestuje celá banka modulů DIMM v nové bance na novém řadiči paměti.
Při výměně celého kanálu modulů DIMM (A1, A4, A7 – označený modře) za jiný kanál (B1, B2, B3 – označený červeně) otestujte celý kanál modulů DIMM v novém kanálu a na novém paměťovém řadiči.
Obecně platí, že chyby modulů DIMM mají tendenci následovat moduly DIMM identifikované v chybách. Například při hlášení chyby SBE na modulu DIMM A1 má výměna tohoto modulu DIMM za jiný modul DIMM za následek jednu z následujících situací:
Chybová zpráva již není hlášena a problém je vyřešen
To znamená, že výměna paměti problém vyřešila.
Chybové hlášení se drží modulu DIMM (modul DIMM A1 se vymění za modul DIMM B1 a chybové hlášení se nyní hlásí u modulu DIMM B1).
To znamená, že modul DIMM je s největší pravděpodobností vadný a vyžaduje výměnu.
Chybové hlášení se drží slotu modulu DIMM (modul DIMM A1 se vymění za modul DIMM B1 a chybové hlášení se stále hlásí u modulu DIMM A1).
To znamená, že s největší pravděpodobností došlo k poruše základní desky nebo procesoru.
Výměna procesoru potvrzuje, která komponenta vyžaduje výměnu.
Pokud se problém týká procesoru (chybové hlášení se po výměně procesorů přesune), vyměňte procesor
Pokud problém zůstane v patici modulu DIMM, vyměňte základní desku.
Chybové hlášení se nedrží modulu DIMM ani slotu (po výměně se chyba hlásí u jiného modulu DIMM).
To znamená, že je pravděpodobně špatný jiný modul nebo moduly DIMM.
POZNÁMKA: Doporučujeme také udržovat aktuální úroveň firmwaru, protože to může snížit riziko výskytu chyb paměti a prodloužit životnost modulů DIMM.
Další informace naleznete v článku znalostní databáze Dell Dell Repository Manager (DRM).