Felsöka minnesfel på PowerEdge-system med växlingstestning
Sammanfattning:Byta DIMM-minnesmoduler för att felsöka minnesfel på Dell Technologies PowerEdge-servrar.
Välj en produkt för att kontrollera artikelns relevans
Den här artikeln gäller för Den här artikeln gäller inte förDen här artikeln är inte kopplad till någon specifik produkt.Alla produktversioner identifieras inte i den här artikeln.
Felsöka minnesfel på PowerEdge-system med växlingstestning
När ett enkelbitsfel (SBE) och/eller ett flerbitarsfel (MBE) rapporteras på en eller flera minnesDIMM-platser kanske orsaken inte beror på själva DIMM-kortet, så en enkel felsökning måste utföras för att fastställa exakt var felet ligger. Se bild 1 för ett exempel på minnesfel som visas i iDRAC-gränssnittet på en R715.
Figur 1: Minnesfel som visas i iDRAC 6-loggar (endast på engelska)
Isolering av minnesproblem innebär att man växlar DIMM-minnen till olika minnessocklar, kanaler, banker och styrenheter. Det finns flera sätt att byta plats på DIMM-modulerna för att begränsa felet. Du kan behöva använda mer än en av dessa metoder för att lokalisera den felaktiga DIMM-modulen eller sockeln. Nedan hittar du en representation av dessa metoder. För att göra förklaringen enkel antar vi att den felaktiga DIMM-modulen är A1 eller en av uppsättningarna som är markerade med blått på bilderna.
Den bästa metoden för att identifiera defekta DIMM-moduler är att byta DIMM-moduler i grupper (efter kanal eller bank) i stället för individuellt. När en grupp DIMM-moduler har identifierats som inneslutande av den eller de DIMM-moduler som inte fungerar, kan rörliga enskilda DIMM-moduler användas för att identifiera vilka DIMM-moduler som inte fungerar.
Metod 1:
Byt ut DIMM A1 (markerad i blått) mot DIMM A9 (markerad i rött) för att prova DIMM i en annan minneskanal och bank
Bild 2: Byta ut DIMM A1 mot DIMM A9
Metod 2:
Om du byter ut DIMM A1 (markerad i blått) mot DIMM B1 (markerad i rött) placeras DIMM på en helt annan minnesstyrenhet (CPU).
Figur 3: Byta ut DIMM A1 mot DIMM B1
Metod 3:
Om du byter ut hela banken med DIMM-moduler (A1, A2, A3 - markerad blå) mot en annan bank (B1, B2, B3 - markerad röd) testas hela banken med DIMM-moduler i en ny bank på en ny minnesstyrenhet.
Figur 4: Byta ut DIMM-modulerna A1, A2, A3 mot DIMM-modulerna B1, B2, B3
Metod 4
Byt ut en hel kanal med DIMM-moduler (A1, A4, A7 – markerad blå) mot en annan kanal (B1, B2, B3 – rödmarkerad) och testa hela kanalen med DIMM-moduler i en ny kanal och på en ny minnesstyrenhet.
Figur 5: Byta ut DIMM-modulerna A1, A4, A7 mot DIMM-modulerna B1, B4, B7
Tolka resultaten efter byte av DIMM-moduler
I allmänhet tenderar DIMM-fel att följa de DIMM-moduler som identifieras i felen. Om du till exempel har en SBE som rapporterar om DIMM A1 och du byter ut den här DIMM mot en annan DIMM får du något av följande:
Felmeddelandet rapporteras inte längre och problemet är löst
Detta tyder på att återställandet av minnet löste problemet
Felmeddelandet följer efter DIMM-modulen (DIMM A1 byts ut mot DIMM B1 och felmeddelanden rapporteras nu mot DIMM B1)
Detta indikerar att DIMM-modulen troligen är trasig och måste bytas ut.
Felmeddelandet följer med DIMM-sockeln (DIMM A1 byts ut mot DIMM B1 och felmeddelanden rapporteras fortfarande mot DIMM A1)
Detta indikerar att moderkortet eller CPU:n med största sannolikhet är trasig
Om du byter processorer bekräftar du vilken komponent som behöver bytas ut
Om problemet följer efter CPU:n (felmeddelandet flyttas efter byte av CPU:er), byt ut CPU:n
Om problemet kvarstår med DIMM-sockeln byter du ut moderkortet
Felmeddelandet följer inte med DIMM-modulen eller sockeln (felet rapporteras mot en annan DIMM-modul efter byte)
Detta indikerar att en annan DIMM- eller DIMM-modul troligen är dålig
Obs! Vi rekommenderar att du även håller nivåerna på den fasta mjukvaran uppdaterade eftersom detta kan minska risken för minnesfel och förlänga DIMM-modulernas livslängd.
Mer information finns i Dells kunskapsbasartikel Dell Repository Manager (DRM).