NetWorker – Troubleshooting-Handbuch: Prozessabstürze und Core-Speicherabbilder
Video: Dell NetWorker – umfassendes Handbuch zum Troubleshooting von Prozessabstürzen und Core-Speicherabbildern
Auf YouTube ansehen
Es gibt viele verschiedene Gründe, warum ein NetWorker-Prozess möglicherweise nicht reagiert. In diesem Artikel wird die empfohlene Methode zum Isolieren und Beheben des Problems beschrieben, dass ein NetWorker-Prozess nicht reagiert.
Überprüfen Sie, ob jeder der unten aufgeführten Schritte zur Fehlerbehebung für Ihre Umgebung geeignet ist. Jeder Schritt enthält Anweisungen oder einen Link zu einem Dokument, um mögliche Ursachen zu beseitigen und bei Bedarf Korrekturmaßnahmen zu ergreifen. Die Schritte folgen der am besten geeignetsten Reihenfolge, um das Problem zu isolieren und die richtige Lösung zu identifizieren. Überspringen Sie keinen Schritt.
Schritt 1: Sammeln von Informationen – Problembeschreibung
Um eine vollständige Problembeschreibung zu erstellen, beantworten Sie die folgenden Fragen:
- Unter welchen Umständen stürzt der Prozess ab? Ist dieses Verhalten konsistent?
- Hat das vorher besser funktioniert?
- Zeitpunkte des Auftretens und beobachteter Verhaltenstrend
: Tritt das Problem nur bei hoher Auslastung der Backupumgebung oder der Backups oder eines bestimmten Backupgruppentyps auf?
- Wann ist das Problem zum ersten Mal aufgetreten? Was änderte sich dann?
- Was ist der Umfang des Problems (alle Clients/einige Clients, alle Backup-Ziele oder einige)
- Was wurde bisher versucht zu beheben und welche Schlussfolgerungen wurden daraus gezogen.
Schritt 2: Sammeln von Informationen – Umgebung
- Welcher NetWorker-Prozess auf welchem Rechner (Server, Storage Node oder Client) nicht reagiert.
- NetWorker-Serverversion und -plattform
- Übersicht über die Größe und Art der Backup-Datenzone
- Zielmedien für diese Backups
Schritt 3: Unterstützbarkeit
- Überprüfen Sie mithilfe des Online-NetWorker-Kompatibilitätsleitfadens, ob alle Komponenten (NetWorker-Server, Dateisystemversion, Proxy, Storage Nodes, Clients, Ziel) unterstützt werden.
- Überprüfen Sie, ob kein zugrunde liegender Betriebssystem- oder Hardwarefehler vorliegt, der für die Prozessabstürze verantwortlich wäre (Festplattenausfälle, volle Festplatte, Netzwerkfehler usw.).
Schritt 4: Best Practices
Das Handbuch zur NetWorker-Performanceoptimierungsplanung enthält mehrere empfohlene Software- und Hardwareanforderungen und Empfehlungen, die implementiert werden sollten, um eine optimal abgestimmte NetWorker-Umgebung zu erhalten. Dies sollte überprüft werden, um sicherzustellen, dass die Best Practices für diese Datenzone befolgt werden. Dies ist relevant, wenn der Prozess, der nicht reagiert, zu Zeiten mit höchster Auslastung stattfindet.
Schritt 5: Komponentenisolierung
Wie wir vorgehen, um die Ursache für das Problem zu finden, dass der Prozess nicht reagiert, hängt vom in Schritt 1 definierten Verhalten ab. Wenn der Auslöser unbekannt ist, können Tests durchgeführt werden, um herauszufinden, was den Absturz auslöst:
- Überwachung der Systemleistung bei hoher Auslastung
- Überprüfen Sie die Protokolldateien des Betriebssystems zum Zeitpunkt der Abstürze auf Gemeinsamkeiten im Verhalten
. - Lesen Sie den NetWorker-Zeitplan, um festzustellen, ob eine Korrelation zwischen den Zeitpunkten des Auftretens einer bestimmten geplanten NetWorker-Aktivität besteht.
- Finden Sie heraus, welche Nicht-NetWorker-Vorgänge auf diesem Computer ausgeführt werden, die sich auf sein Verhalten auswirken könnten, und ob ihr Zeitplan mit den Zeiten der Abstürze korreliert.
- Wenn der Absturz regelmäßig auftritt, ändern Sie einige Parameter, um die Ursache einzugrenzen. Zum Beispiel das Sichern auf ein anderes Zielmedium oder das Sichern verschiedener Datentypen vom selben NetWorker-Client
Schritt 6: Auflösung
Ein Coredump ist eine spezielle Datei, die einen Speicherabbild des Arbeitsspeichers eines Prozesses zu einem bestimmten Zeitpunkt darstellt, in der Regel, wenn das Programm abnormal beendet wurde. Core-Speicherabbilddateien können verwendet werden, um den Grund für einen nicht reagierenden Prozess zu diagnostizieren, indem analysiert wird, welche Funktionen des Prozesses zum Zeitpunkt des Absturzes ausgeführt wurden und auf welche Daten zugegriffen wurde.
Die meisten Betriebssysteme erzeugen Core-Speicherabbilddateien nicht automatisch. Die Parameter des Betriebssystems müssen geändert werden, damit zum Zeitpunkt eines Prozessabsturzes eine Core-Speicherabbilddatei erzeugt wird. Diese Änderung muss vor dem Absturz durchgeführt werden.
1) Überprüfen Sie das Verzeichnis /nsr/cores auf aktuelle Core-Speicherabbilder von NetWorker-Prozessen unter Unix oder Linux oder überprüfen Sie das Absturzverzeichnis, wie in der Windows-Registrierung definiert (siehe Schritt 2).
2) Wenn keine vorhanden ist, überprüfen Sie, ob das Betriebssystem so eingerichtet ist, dass bei einem Prozessabsturz Core-Speicherabbilddateien erzeugt werden. Ausführliche Informationen finden Sie in der Dokumentation zum Betriebssystem. Kurz gesagt, dazu müssen Sie wahrscheinlich die ulimit-c- und -f-Werte in Linux oder Unix ändern und eine Registrierungsänderung in Windows vornehmen.
Für Windows 2008R2:
- Aktualisieren Sie die Registrierung mit dem neuen Schlüssel, der unter http://msdn.microsoft.com/en-us/library/bb787181(VS.85).aspx bereitgestellt wird.
- Mit den empfohlenen Werten wird die Speicherabbilddatei in C:\Users\Administrator\AppData\Local\CrashDumps
- Vollständige Absturzabbilder aktivieren erstellt.
3) Die Core-Datei kann auf dem Host-Rechner selbst untersucht oder zur Analyse auf einem anderen Rechner gepackt werden. Details zum Verpacken dieser Kerndateien finden Sie hier:
UNIX- und Linux-Kerndateipakete:
489272: So erfassen Sie Core-/Crashdump-Informationen und zugehörige Protokolle
Befolgen Sie unter Windows die nachstehenden Anweisungen:
198564: So erfassen Sie den Kernel- und Nutzer-Speicherabbild für aufgehängte Prozesse unter Windows
4) Analysieren Sie die verfügbaren Daten:
- Protokolldateien
des Betriebssystems - NetWorker-Daemon-Protokolldatei vom NetWorker-Server und vom relevanten Storage Node.
- Core-Datei oder Absturzdatei
: Die detaillierte Analyse einer Core-Datei erfordert erweiterte Kenntnisse der internen NetWorker-Vorgänge und sollte vom EMC NetWorker-Support durchgeführt werden. Es kann jedoch ein erster Lesevorgang der Core-Datei durchgeführt werden, um den Inhalt der Core-Datei mit bekannten Problemen zu vergleichen.
Linux und HP-UX
gdb [vollständiger Pfad zum Verarbeitung] [Core-Datei]
(gdb) wobei
AIX
dbx [vollständiger Pfad zum Verarbeitung] [core-Datei]
(dbx) wo
Solaris
pstack [Kerndatei]
dbx [vollständiger Pfad zum Verarbeitung] [core-Datei]
(dbx) wobei
Windows
- Starten Sie das Windows-Debugger-Programm
windbg- Klicken Sie auf Datei und öffnen Sie die Speicherabbilddatei in windbg.
- Geben Sie analyze --v in das untere Befehlsfenster ein, um alle Informationen abzurufen.
5) Basierend auf der obigen Analyse und dem Wissen über das Systemverhalten können Sie den Incident mit der Liste bekannter Probleme vergleichen, die in den NetWorker-Versionshinweisen für die neueste Version aufgeführt sind.
Schritt 7: Erweitertes Debugging (falls erforderlich)
Wenn Sie vermuten, dass ein Fehler in der NetWorker-Software vorliegt, der für das Nichtreagieren des Prozesses verantwortlich ist, müssen Sie die Absturzdatei packen (siehe Schritt 3) und diese zusammen mit einer vollständigen Beschreibung des beobachteten Verhaltens an den Dell Technologies NetWorker-Support für eine detaillierte Analyse des Problems übermitteln.