Vereisten
Om DCGM uit te voeren, moet het doelsysteem de volgende NVIDIA-componenten bevatten, vermeld in afhankelijkheidsvolgorde:
- Ondersteunde NVIDIA Datacenter-stuurprogramma's
- Op HGX-systemen (Hyperscale Graphics Extension) zijn de Fabric Manager en NVSwitch Configuration and Query (NSCQ)-pakketten - DCGM Runtime en SDK
Voor Red Hat- of Rocky-releases:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Werk de metadata van de repository bij.
sudo dnf clean expire-cache
Installeer nu DCGM.
sudo dnf install -y datacenter-gpu-manager
Op HGX systemen (A100/A800 en H100/H800) moet u de NVIDIA Switch Configuration installeren als u de NVSwitches wilt pollen. Voer een query uit op de NSCQ-bibliotheek voor DCGM om de NVSwitches op te sommen en telemetrie voor switches te leveren. NSCQ moet overeenkomen met de driverversiebranch (XXX) die op het systeem is geïnstalleerd. Vervang XXX door de benodigde driverbranch in de onderstaande opdrachten.
sudo dnf module install nvidia-driver:XXX/fm
Vraag het besturingssysteem om de driverversie:
nvidia-smi
In dit voorbeeld gebruiken we de volgende opdracht, omdat de driverversie 550 is:
sudo dnf module install nvidia-driver:550/fm
Schakel de DCGM systemd-service in (bij opnieuw opstarten) en begin nu:
sudo systemctl --now enable nvidia-dcgm
Gebruik dcgmi om de installatie te controleren om query's uit te voeren op het systeem. Je zou een lijst moeten zien van alle ondersteunde GPU's (en eventuele NVSwitches) die in het systeem te vinden zijn: (de schakelaar is een kleine letter L)
DCGMI Discovery -L
dcgmi discovery -l
[Voorbeeld hieronder heeft geen NvSwitches, maar het veld wordt gevuld met details als ze aanwezig zijn of gedetecteerd worden.]