Forudsætninger
For at køre DCGM skal målsystemet indeholde følgende NVIDIA-komponenter, der er angivet i afhængighedsrækkefølge:
- Understøttede NVIDIA-datacenterdrivere
- På HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ) pakker
- DCGM Runtime og SDK
For Red Hat eller Rocky-udgivelser:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Opdater lagerets metadata.
sudo dnf clean expire-cache
Installer nu DCGM.
sudo dnf install -y datacenter-gpu-manager
På HGX-systemer (A100/A800 og H100/H800) skal du installere NVIDIA-switchkonfigurationen, hvis du vil foretage en afstemning blandt NVSwitches. Forespørg NSCQ-biblioteket efter DCGM for at optælle NVSwitches og levere telemetri til switche. NSCQ skal stemme overens med driverversionsgrenen (XXX), der er installeret på systemet. Udskift XXX med den nødvendige drivergren i kommandoerne nedenfor.
sudo dnf module install nvidia-driver:XXX/fm
Forespørg operativsystemet efter driverversionen:
nvidia-smi
I dette eksempel bruger vi følgende kommando, da vores driverversion vises som 550:
sudo dnf module install nvidia-driver:550/fm
Aktivér DCGM systemd-tjenesten (ved genstart), og start nu:
sudo systemctl --now enable nvidia-dcgm
For at bekræfte installationen skal du bruge dcgmi til at forespørge systemet. Du bør se en liste over alle understøttede GPU'er (og eventuelle NVSwitches), der findes i systemet: (kontakten er et lille bogstav L)
DCGMI-registrering – l
dcgmi discovery -l
[Eksemplet nedenfor har ikke NvSwitches, men feltet udfyldes med detaljer, hvis de findes eller registreres.]