Guida alla risoluzione dei problemi di NetWorker: Arresti anomali dei processi e core dump
Video: Guida completa Dell NetWorker alla risoluzione dei problemi relativi agli arresti anomali dei processi e ai core dump
Guarda su YouTube
Esistono molti motivi diversi per cui un processo NetWorker potrebbe non rispondere. Questo articolo illustra il metodo consigliato per isolare e risolvere un processo NetWorker che non risponde.
Verificare che ogni passaggio di risoluzione dei problemi riportato di seguito sia valido per l'ambiente in uso. Ogni passaggio fornisce istruzioni o un link a un documento per eliminare le possibili cause e intraprendere le azioni correttive necessarie. I passaggi sono ordinati nella sequenza più appropriata per isolare il problema e identificare la risoluzione corretta. Non saltare un passaggio.
Passo 1: Raccolta di informazioni - Descrizione del problema
Per generare una descrizione completa del problema, rispondere alle seguenti domande:
- In quali circostanze si verifica l'arresto anomalo del processo. Si tratta di un comportamento coerente?
- Ha funzionato meglio prima.
- Tempi di occorrenze e tendenza
del comportamento osservato: il problema si verifica solo nei momenti di carico intenso sull'ambiente di backup o sui backup o su un particolare tipo di gruppo di backup.
- Quando si è verificato il problema per la prima volta. Cosa è cambiato allora?
- Qual è l'ambito del problema (tutti i client/alcuni client, tutte le destinazioni di backup o alcuni)
- Cosa si è tentato di risolvere finora e quali conclusioni sono state tratte da questo.
Passaggio 2. Raccolta di informazioni - Ambiente
- Quale processo NetWorker non risponde e su quale macchina (server, storage node o client).
- Versione e piattaforma
del server NetWorker - Panoramica delle dimensioni e della natura della datazone
di backup - Supporto di destinazione per questi backup
Passaggio 3. Supportabilità
- Utilizzando la Guida alla compatibilità di NetWorker online, verificare che tutti i componenti (server NetWorker, versione del file system, proxy, storage node, client, destinazione) siano supportati.
- Verificare che non vi siano carenze del sistema operativo o dell'hardware sottostanti che potrebbero giustificare gli arresti anomali del processo (guasti del disco, disco pieno, errori di rete e così via).
Passaggio 4. Best practice
Il documento NetWorker Performance Optimization Planning Guide contiene numerosi requisiti software e hardware consigliati, nonché suggerimenti da implementare per avere un ambiente NetWorker ottimizzato in modo ottimale. Questa operazione deve essere esaminata per assicurarsi che vengano seguite le best practice per questa datazone. Ciò è rilevante se il processo che non risponde si verifica nei momenti di carico più pesante.
Passaggio 5. Isolamento dei componenti
Il modo in cui si procede per trovare la causa principale del problema di mancata risposta del processo dipende dal comportamento definito nel passaggio 1. Se l'innesco è sconosciuto, è possibile eseguire test per cercare di stabilire cosa sta scatenando l'incidente:
- Monitorare le prestazioni del sistema in condizioni di carico
intensivo: esaminare i file di log del sistema operativo nel momento in cui si sono verificati gli arresti anomali per verificare la comunanza di comportamento
. - Leggere la pianificazione di NetWorker per determinare se esiste una correlazione tra i momenti in cui si verifica una particolare attività pianificata di NetWorker.
- Scoprire quali operazioni non NetWorker vengono eseguite su questa macchina che potrebbero influire sul suo comportamento e se la loro pianificazione è correlata agli orari degli arresti anomali.
- Se l'arresto anomalo si verifica costantemente, modificare alcuni parametri per cercare di restringere la causa. Ad esempio, il backup su un supporto di destinazione diverso o il backup di diversi tipi di dati dallo stesso client NetWorker
Passaggio 6. Risoluzione
Un coredump è un file speciale che rappresenta un dump della memoria di lavoro di un processo in un momento specifico, di solito quando il programma è stato terminato in modo anomalo. I core dump file possono essere utilizzati per diagnosticare il motivo per cui un processo non risponde, analizzando le funzioni del processo in esecuzione al momento dell'arresto anomalo e i dati a cui si accedeva.
La maggior parte dei sistemi operativi non genera automaticamente core dump file. I parametri del sistema operativo devono essere modificati in modo che venga generato un core dump file al momento dell'arresto anomalo di un processo. Questa modifica deve essere eseguita prima dell'arresto anomalo.
1) Controllare la directory /nsr/cores per i core dump recenti dei processi NetWorker in UNIX o Linux o controllare la directory di arresto anomalo definita nel Registro di sistema di Windows (vedere il passaggio 2).
2) In caso contrario, verificare che il sistema operativo sia configurato per generare core dump file in caso di arresto anomalo del processo. Consultare la documentazione del sistema operativo per i dettagli completi, ma in breve, ciò comporterà probabilmente la modifica dei valori ulimit -c e -f in Linux o UNIX e l'esecuzione di una modifica del Registro di sistema in Windows.
Per Windows 2008R2:
- Aggiornare il Registro di sistema con la nuova chiave fornita in http://msdn.microsoft.com/en-us/library/bb787181(VS.85).aspx.
- Utilizzando i valori consigliati, il dump file viene creato in C:\Users\Administrator\AppData\Local\CrashDumps
- Abilita dump di arresto anomalo completi.
3) Il file core può essere esaminato sul computer host stesso o può essere incluso in un pacchetto per l'analisi su un altro computer. I dettagli su come creare un pacchetto di questi file core sono disponibili qui:
Pacchetti di file core UNIX e Linux:
489272: Come raccogliere le informazioni su core/crash dump e i relativi registri
4) Analizzare i dati disponibili:
- file
di log del sistema operativo - file di log del daemon NetWorker dal server NetWorker e dallo storage node pertinente.
- File principale o file
di arresto anomalo: l'analisi dettagliata di un file principale richiede una conoscenza avanzata delle operazioni interne di NetWorker e deve essere eseguita dal supporto EMC NetWorker. Tuttavia, è possibile eseguire una lettura iniziale del file core per confrontarne il contenuto con i problemi noti.
Linux e HP-UX
gdb [percorso completo per l'elaborazione] [file core]
(gdb) dove
AIX
dbx [percorso completo per l'elaborazione] [file core]
(dbx) dove
Solaris
pstack [ file core ]
dbx [percorso completo per l'elaborazione] [file core]
(dbx) dove
Windows
- Avviare il programma
debugger di Windows windbg- Fare clic su File e aprire il file di dump in windbg.
- Digita analyze --v nella finestra di comando in basso per recuperare le informazioni complete.
5) In base all'analisi di cui sopra e alla conoscenza del comportamento del sistema, è possibile confrontare l'incidente con l'elenco dei problemi noti descritti in dettaglio nelle Note di rilascio di NetWorker per la versione più recente.
Passaggio 7. Debug avanzato (se necessario)
Se si sospetta che nel software NetWorker sia presente un guasto responsabile della mancata risposta del processo, è necessario creare un pacchetto del file di arresto anomalo (vedere il passaggio 3) e fornirlo con una descrizione completa del comportamento osservato al supporto NetWorker di Dell Technologies per un'analisi dettagliata del problema.