Risoluzione dei problemi di capacità in un sistema
AvamarQuando si affrontano problemi di capacità in un sistema Avamar, è fondamentale comprenderne la root cause. Ciò richiede una serie di passaggi, a partire dalla raccolta dei dati per un'indagine approfondita.
I sistemi Avamar hanno diversi tipi di limiti di capacità. Una comprensione completa di questi limiti, insieme al loro contesto storico, può chiarire i problemi di capacità attuali e passati riscontrati dal sistema.
Il sistema genera specifici eventi, avvisi o errori nell'interfaccia utente (UI) quando vengono superate determinate soglie di capacità:
- 80%: Avvertenza capacità
- 95%: È stato raggiunto il limite del controllo integrità
- 100%: Viene raggiunto il limite read-only del server, causando il passaggio della griglia alla modalità amministratore
Quando un sistema Avamar è pieno, può presentare i seguenti sintomi o errori:
- La garbage collection non riesce, causando errori di MSG_ERR_DISKFULL o MSG_ERR_STRIPECREATE.
- I checkpoint hanno esito negativo a causa di MSG_ERR_DISKFULL errore.
- I backup non possono essere eseguiti o hanno esito negativo a causa della capacità completa.
- I backup hanno esito negativo con errori di MSG_ERR_STRIPECREATE o messaggi che indicano che il server di destinazione è pieno.
- Lo stato di accesso passa alla modalità amministratore (a meno che non sia in esecuzione la manutenzione).
- L'utilità di pianificazione del backup è disabilitata e non può essere ripresa a causa dei limiti di capacità dei metadati.
La comprensione di questi aspetti può aiutare a gestire e risolvere i problemi di capacità in un sistema Avamar.
Raccolta di informazioni:
Accedere all'Avamar Server (nodo singolo o utility node) ed eseguire tutti i comandi. Questi raccolgono solo informazioni e non applicano alcuna modifica:
1. Se non è già noto, fornisce il nome completo o il nome di dominio completo (FQDN) dell'Avamar Server:
2. Verificare che tutti i servizi siano abilitati, incluso l'utilità di pianificazione della manutenzione:
3. Lo stato generale del sistema:
4. Aumentare la capacità
.SH per raccogliere 60 giorni di dati e i primi 10 clienti che hanno contribuito:
capacity.sh --days=60 --top=10
5. Registri che mostrano il comportamento di base della garbage collection negli ultimi 30 giorni:
dumpmaintlogs --types=gc --days=30 | grep "4202"
6. La quantità di dati rimossi dalla garbage collection, il numero di passaggi completati e la durata della sua esecuzione.
Per Avamar
v5.x e v6.x, eseguire:
dumpmaintlogs --types=gc --days=30 | grep passes | cut -d ' ' -f1,12,13,15
Per Avamar
v7.x e versioni successive, eseguire:
dumpmaintlogs --types=gc --days=30 | grep passes | cut -d ' ' -f1,10,14,15,17
7. Controllare per quanto tempo viene eseguito hfscheck:
dumpmaintlogs --types=hfscheck --days=30 | grep -i elapsed|cut -d ' ' -f1,12 | grep -v check
8. Dettagli sull'utilizzo della capacità del file system per nodo e per partizione:
avmaint nodelist | egrep 'nodetag|fs-percent-full'
9. Elenco dei checkpoint disponibili nel sistema:
10. Orari di avvio/arresto pianificati dei lavori di manutenzione:
avmaint sched status --ava | egrep -A 2 "maintenance-window|backup-window" | tail -16
11. Raccogliere tutte le impostazioni del disco:
avmaint config --ava | egrep -i 'disk|crunching|balance'
Non modificare mai i valori a meno che non sia consigliato da un esperto in materia (SME) Avamar. I valori non predefiniti potrebbero essere presenti per una buona ragione. Comprendi a fondo la situazione.
12. Raccogliere i conteggi dei diversi tipi di stripe per nodo per partizione dati:
avmaint nodelist --xmlperline=99 | grep 'comp='
13. Controllare la quantità di memoria (e swap) in uso su ciascun nodo: