I controller Dell PERC 9 (H330, H730, H730P e H830) hanno introdotto una funzione denominata Rapid Rebuild (Ricostruzione rapida) che accelera i tempi per ricostruire le unità danneggiate in determinate condizioni. Questa funzione è basata su T10 Rebuild Assist. Dell ha stabilito che esiste una possibilità che i problemi di integrità dei dati si verifichino quando questa funzione viene utilizzata in determinate condizioni.
Sommario
- Funzionamento della funzionalità
- Descrizione del problema
- Come avere conferma dell'esistenza del problema
- Soluzione
Funzionamento della funzionalità:
Qualsiasi unità compatibile con la funzione Rapid Rebuild (Ricostruzione rapida) registrerà questa funzionalità con il controller. Questa funzione è supportata con dischi virtuali RAID con parità: RAID 5, RAID 6, RAID 50 e RAID 60. La funzione richiede un server con unità compatibili, livelli RAID basati su parità e un'unità hot-spare configurata (globale o dedicata per il disco virtuale specificato). Ciascuna unità compatibile nel disco virtuale tiene traccia dei propri blocchi/settori con errori. Un'unità potrebbe quindi guastrsi in modo da poter comunque comunicare con il CONTROLLER PERC e indicare al controller PERC quali settori sono ancora "funzionanti". Anziché eseguire algoritmi XOR di ripristino RAID che richiedono molto tempo per l'intero disco, il controller PERC copierà i settori funzionanti sull'unità hot-spare e ripristinerà solo i settori danneggiati. Il controller PERC copierà i settori funzionanti sull'unità hot-spare e dovrà ricostruire solo i settori danneggiati. Senza la funzione Rapid Rebuild (Ricostruzione rapida), il controller PERC deve ricostruire tutti i settori, il che richiede molto tempo per le unità ad alta capacità.
Descrizione del problema
Quando il CONTROLLER PERC ricostruisce i dati per i settori "danneggiati", scrive erroneamente i dati dalla cache sull'unità guasta anziché sull'unità hot-spare. Di conseguenza i dati e la parità associata non vengono scritti nell'unità hot-spare. In modalità write-through, si verificheranno errori di parità. In modalità write back, si verificheranno errori sia di dati sia della parità associata.
Come avere conferma dell'esistenza del problema
Nota: Come estrarre il registro del controller PERC, consultare
l'articolo SLN295784.
Se nel registro del controller PERC viene visualizzato il seguente testo evidenziato, vuol dire che si è verificato il problema.
C0:EVT#395950-17/08/16 13:54:59: 114=Modifica dello stato su PD 0b(e0x20/s11) da OFFLINE(XX) a REBUILDASSIST(12)
Soluzione
-
Se il disco virtuale era in modalità write-through, solo i dati di parità sono a rischio e un controllo di coerenza (CC) consente di ripristinare la parità. Questa soluzione funziona solo se si verifica un'unica occorrenza di Rebuild Assist. Se si verificano più occorrenze di Rebuild Assist per lo stesso disco virtuale, è necessario ripristinare i dati da un backup precedente.
-
Se il disco virtuale era in modalità write back e si è verificato il problema, è necessario ripristinare i dati dal backup. Purtroppo, non esiste alcun metodo per ripristinare i dati persi. Ripristinare i dati da un backup precedente.
Se non si è verificato questo problema, per proteggersi da questo scenario, aggiornare il firmware del controller PERC H730, H730p, H830 alla versione 25.5.0.0018 e il firmware del controller PERC H330 alla versione 25.5.0.0019 o successiva, disattivando la funzione Rapid Rebuild (Ricostruzione rapida).
Per scaricare la versione del firmware più recente, accedere alla sezione "Driver e download" di un server 13G ed espandere il menu "RAID SAS".
Il firmware corretto è stato implementato in fabbrica e i nuovi server non sono esposti a questo problema.
Nota Dell: Come parte del miglioramento continuo dei processi aziendali in tutte le funzioni chiave, Dell esamina continuamente i processi chiave e implementa miglioramenti. Dell è particolarmente concentrata sui processi di sviluppo, test e produzione per i sistemi di storage e server. Questi miglioramenti dei processi consentono di evitare problemi futuri e permettono a Dell di rispondere più rapidamente e in modo più efficace ai potenziali problemi sul campo.