iDRAC registra il seguente evento: Mem0702 Correctable memory error rate exceeded for DIMM (Bank/Slot)
1. Descrizione
2. Soluzione
3. Ulteriori informazioni
Un errore di memoria correggibile è un errore di bit singolo che si verifica quando un bit viene modificato erroneamente, da 1 a 0 o da 0 a 1, durante un'operazione di scrittura o lettura. Quando si identifica il bit specifico con l'errore, l'errore viene risolto modificando il bit errato. I MODULI DIMM certificati Dell eseguono questa correzione automaticamente.
In rari casi, un server potrebbe riavviarsi dopo aver registrato un errore di memoria correggibile nel registro SEL. Questo è possibile vedere solo nella versione del BIOS 2.3.x.
Esempio:
Mem0701 Warning Correctable memory error rate exceeded for DIMM_xx.
Mem0702 Critical Correctable memory error rate exceeded for DIMM_xx.
Esempio di registro LC:
2017-03-07 23:08:02 Ripristino della CPU del sistema SYS1003.
Il sistema SYS1001 2017-07 23:08:02 è disattivato.
2017-03-07 23:08:02 MEM0702 Tasso di errore di memoria correggibile superato per DIMM_xx.
Al fine di risolvere il problema del riavvio, è necessario aggiornare il BIOS alla versione più recente. Se ciò non è possibile per motivi operativi, il BIOS deve essere portato alle versioni minime elencate di seguito:
R430 | 2.4.2 |
T430 | 2.4.2 |
R530 | 2.4.2 |
T630 | 2.4.2 |
R630 | 2.4.3 |
R730 | 2.4.3 |
R830 | 1.4.2 |
C4130 | 2.4.2 |
C6320 | 2.4.2 |
Tutti i server blade modulari | 2.4.2 |
Ulteriori informazioni
Questo problema è stato segnalato principalmente in PowerEdge R630 e R730, tuttavia il potenziale esiste in tutti i sistemi 13G con una versione del BIOS 2.3.x. È stata introdotta una modifica nella versione del BIOS 2.3.x per la registrazione aggiuntiva in Security Policy Database (SPD) che ha introdotto questo particolare problema:
"Una dereferenziazione del puntatore NULL nella registrazione SPD avanzata del BIOS dopo il superamento della soglia di errore critico correggibile della memoria causerebbe il controllo o il blocco del computer da
parte del sistema".Le versioni del BIOS precedentemente citate per le piattaforme interessate risolveranno il problema di riavvio del server in combinazione con il messaggio correctable error rate exceeded.
Il problema è stato segnalato principalmente in R630 e R730. La possibilità che si verifichi esiste in tutti i server PowerEdge 13G con BIOS versione 2.3.x.