Voraussetzungen
Zum Ausführen von DCGM muss das Zielsystem die folgenden NVIDIA-Komponenten enthalten, die in der Reihenfolge der Abhängigkeiten aufgelistet sind:
- Unterstützte NVIDIA Datacenter-Treiber
– Auf HGX-Systemen (Hyperscale Graphics Extension) die Fabric Manager- und NVSwitch Configuration and Query (NSCQ)-Pakete
– DCGM Runtime und SDK
Für Red Hat- oder Rocky-Versionen:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Aktualisieren Sie die Repository-Metadaten.
sudo dnf clean expire-cache
Installieren Sie jetzt DCGM.
sudo dnf install -y datacenter-gpu-manager
Auf HGX-Systemen (A100/A800 und H100/H800) müssen Sie die NVIDIA-Switch-Konfiguration installieren, wenn Sie die NVSwitches abfragen möchten. Fragen Sie die NSCQ-Bibliothek für DCGM ab, um die NVSwitches aufzulisten und Telemetrie für Switches bereitzustellen. NSCQ muss mit dem auf dem System installierten Zweig der Treiberversion (XXX) übereinstimmen. Ersetzen Sie XXX durch den erforderlichen Treiberzweig in den folgenden Befehlen.
sudo dnf module install nvidia-driver:XXX/fm
Fragen Sie das Betriebssystem nach der Treiberversion ab:
nvidia-smi
Für dieses Beispiel verwenden wir den folgenden Befehl, da unsere Treiberversion als 550 angezeigt wird:
sudo dnf module install nvidia-driver:550/fm
Aktivieren Sie den DCGM-Dienst systemd (beim Neustart) und starten Sie jetzt:
sudo systemctl --now enable nvidia-dcgm
Um die Installation zu überprüfen, verwenden Sie dcgmi, um das System abzufragen. Es sollte eine Liste aller unterstützten GPUs (und aller NVSwitches) im System angezeigt werden: (der Schalter ist ein kleines L)
DCGMI Ermittlung -L
dcgmi discovery -l
[Das Beispiel unten enthält keine NVCans, aber das Feld wird mit Details gefüllt, wenn sie vorhanden sind oder erkannt werden.]