Troubleshooting von Speicherfehlern auf PowerEdge-Systemen durch Tauschtests
Summary:Austauschen von Arbeitsspeicher-DIMMs zur Behebung von Speicherfehlern auf Dell Technologies PowerEdge-Servern.
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Troubleshooting von Speicherfehlern auf PowerEdge-Systemen durch Swap-Tests
Wenn ein Single-Bit-Fehler (SBE) und/oder Multi-Bit-Fehler (MBE) an einem oder mehreren DIMM-Steckplätzen gemeldet wird, liegt die Ursache möglicherweise nicht am DIMM selbst, sodass ein einfaches Troubleshooting durchgeführt werden muss, um festzustellen, wo genau der Fehler liegt. Abbildung 1 zeigt ein Beispiel für Speicherfehler, die in der iDRAC-Schnittstelle auf einem R715 auftreten.
Abbildung 1: Speicherfehler, wie in iDRAC 6-Protokollen angezeigt (Nur Englisch)
Die Isolierung von Speicherproblemen bedeutet das Austauschen von Speicher-DIMMs in verschiedene Speichersockel, -kanäle, -bänke und -controller. Es gibt mehrere Möglichkeiten, die DIMMs auszutauschen, um den Fehler einzugrenzen. Möglicherweise müssen Sie mehr als eine dieser Methoden verwenden, um das fehlerhafte DIMM oder den fehlerhaften Sockel zu ermitteln. Nachfolgend finden Sie eine Darstellung dieser Methoden. Um die Erklärung einfach zu machen, gehen wir davon aus, dass es sich bei dem fehlerhaften DIMM um A1 oder eines der in den Abbildungen blau markierten Sets handelt.
Das Austauschen von DIMMs in Gruppen (nach Kanal oder Bank) statt einzeln ist die beste Methode, um die fehlerhaften DIMMs oder DIMMs zu identifizieren. Sobald eine Gruppe von DIMMs identifiziert wurde, die das fehlerhafte DIMM oder die fehlerhaften DIMMs enthält, kann durch das Verschieben einzelner DIMMs ermittelt werden, welche DIMMs ausgefallen sind.
Methode 1:
Tauschen Sie DIMM A1 (blau markiert) durch DIMM A9 (rot markiert) aus, um das DIMM in einem anderen Speicherkanal und einer anderen Bank zu testen
Abbildung 2: Austauschen von DIMM A1 durch DIMM A9
Methode 2:
Durch den Austausch von DIMM A1 (blau markiert) gegen DIMM B1 (rot markiert) wird das DIMM auf einem völlig anderen Speichercontroller (CPU) eingesetzt.
Abbildung 3: Austauschen von DIMM A1 durch DIMM B1
Methode 3:
Durch den Austausch der gesamten DIMM-Bank (A1, A2, A3 - blau markiert) gegen eine andere Bank (B1, B2, B3 - rot markiert) wird die gesamte Bank von DIMMs in einer neuen Bank auf einem neuen Speicher-Controller getestet.
Abbildung 4: Austauschen der DIMMs A1, A2, A3 mit DIMMs B1, B2, B3
Methode 4
Tauschen Sie einen ganzen DIMM-Kanal (A1, A4, A7 - blau markiert) gegen einen anderen Kanal (B1, B2, B3 - rot markiert) aus und testen Sie den gesamten Kanal der DIMMs in einem neuen Kanal und auf einem neuen Speicher-Controller.
Abbildung 5: Austauschen der DIMMs A1, A4, A7 mit DIMMs B1, B4, B7
Interpretieren der Ergebnisse nach dem Austauschen von DIMMs
Im Allgemeinen folgen DIMM-Fehler in der Regel den in den Fehlern identifizierten DIMMs. Wenn beispielsweise ein SBE auf DIMM A1 gemeldet wird, führt der Austausch dieses DIMM gegen ein anderes DIMM zu einem der folgenden Ergebnisse:
Die Fehlermeldung wird nicht mehr gemeldet und das Problem ist behoben
Dies weist darauf hin, dass das Problem durch erneutes Einsetzen des Arbeitsspeichers behoben wurde.
Die Fehlermeldung folgt dem DIMM (DIMM A1 wird durch DIMM B1 getauscht und Fehlermeldungen werden jetzt für DIMM B1 gemeldet)
Dies weist darauf hin, dass das DIMM höchstwahrscheinlich ausgefallen ist und ersetzt werden muss.
Die Fehlermeldung folgt dem DIMM-Sockel (DIMM A1 wird durch DIMM B1 getauscht und Fehlermeldungen werden weiterhin für DIMM A1 gemeldet).
Dies weist darauf hin, dass die Systemplatine oder CPU höchstwahrscheinlich ausgefallen ist.
Durch den CPU-Austausch wird bestätigt, welche Komponente ausgetauscht werden muss.
Wenn das Problem der CPU folgt (die Fehlermeldung wird nach dem Austausch der CPUs verschoben), ersetzen Sie die CPU.
Wenn das Problem weiterhin beim DIMM-Sockel besteht, tauschen Sie die Systemplatine aus
Die Fehlermeldung gilt nicht für das DIMM oder den Sockel (der Fehler wird nach dem Tausch für ein anderes DIMM gemeldet)
Dies weist darauf hin, dass ein oder mehrere andere DIMMs höchstwahrscheinlich fehlerhaft sind.
HINWEIS: Wir empfehlen Ihnen, auch Ihre Firmware auf dem neuesten Stand zu halten, da dies das Risiko von Speicherfehlern verringern und die Lebensdauer der DIMMs verlängern kann.
Weitere Informationen finden Sie im Dell Wissensdatenbank-Artikel Dell Repository Manager (DRM).