iDRAC protokolliert das folgende Ereignis: MEM0702: Fehlerrate des korrigierbaren Speichers für DIMM überschritten (Bank/Steckplatz)
1. Beschreibung
2. Lösung
3. Weitere Informationen
Ein korrigierbarer Arbeitsspeicherfehler ist ein Single-Bit-Fehler, der auftritt, wenn ein Bit während eines Schreib-oder Lesevorgangs fälschlicherweise von 1 auf 0 oder von 0 auf 1 wechselt. Wenn das konkrete falsche Bit identifiziert wird, wird der Fehler durch die Ergänzung des falschen Bits korrigiert. Von Dell zertifizierte DIMMs führen diese Korrektur automatisch durch.
In seltenen Fällen kann ein Server neu gestartet werden, nachdem ein korrigierbarer Speicherfehler im SEL-Protokoll aufgezeichnet wurde. Dies wird nur in der BIOS-Version 2.3.x angezeigt.
Beispiel:
MEM0701 Warning Correctable memory error rate exceeded for DIMM_xx.
MEM0702 Critical Correctable memory error rate exceeded for DIMM_xx.
Lc-Protokollbeispiel:
2017-03-07 23:08:02 SYS1003 System CPU Resetting.
2017-03-07 23:08:02 SYS1001 System is turning off.
2017-03-07 23:08:02 MEM0702 Correctable memory error rate exceeded for DIMM_xx.
Um das Neustart-Problem zu beheben, sollte das BIOS auf die aktuellste Version aktualisiert werden. Wenn dies aus betrieblichen Gründen nicht möglich ist, sollte das BIOS auf die unten aufgeführten Mindestversionen aktualisiert werden:
R430 | 2.4.2 |
T430 | 2.4.2 |
R530 | 2.4.2 |
T630 | 2.4.2 |
R630 | 2.4.3 |
R730 | 2.4.3 |
R830 | 1.4.2 |
C4130 | 2.4.2 |
C6320 | 2.4.2 |
Alle modularen Blades | 2.4.2 |
Weitere Informationen
Dieses Problem wurde in erster Linie im PowerEdge R630 und R730 gemeldet, aber das Potenzial besteht in allen 13G mit einer BIOS-Version von 2.3.x. In der BIOS-Version 2.3.x wurde eine Änderung für die zusätzliche Protokollierung in der Security Policy Database (SPD) eingeführt, die dieses spezielle Problem einführte:
"Eine NULL-Zeiger-Dereferenzierung in der verbesserten SPD-Protokollierung im BIOS, nachdem der kritische Schwellenwert für den korrigierbaren Speicherfehler überschritten wurde, würde dazu führen, dass das System eine Computerprüfung oder -sperrung durchführen kann."
Die zuvor angegebenen BIOS-Versionen für die betroffenen Plattformen beheben das Problem beim Neustart des Servers in Verbindung mit der Meldung "Correctable Error Rate exceeded".
Das Problem wurde hauptsächlich in R630 und R730 gemeldet. Die Möglichkeit des Problems besteht bei allen PowerEdge 13G-Servern mit BIOS-Version 2.3.x.