Forutsetninger
For å kjøre DCGM må målsystemet inneholde følgende NVIDIA-komponenter, oppført i avhengighetsrekkefølge:
– Støttede NVIDIA Datacenter-drivere
– på HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ)-pakker
– DCGM Runtime og SDK
For Red Hat- eller Rocky-utgivelser:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Oppdater metadataene for repositoriet.
sudo dnf clean expire-cache
Nå, installer DCGM.
sudo dnf install -y datacenter-gpu-manager
På HGX-systemer (A100/A800 og H100/H800) må du installere NVIDIA-svitsjkonfigurasjonen hvis du vil spørre NVSwitches. Spør NSCQ-biblioteket etter DCGM for å nummerere NVSwitches og gi telemetri for svitsjer. NSCQ må samsvare med grenen for driverversjon (XXX) som er installert på systemet. Erstatt XXX med den nødvendige drivergrenen i kommandoene nedenfor.
sudo dnf module install nvidia-driver:XXX/fm
Spør operativsystemet etter driverversjonen:
nvidia-smi
I dette eksempelet bruker vi følgende kommando siden driverversjonen vår vises som 550:
sudo dnf module install nvidia-driver:550/fm
Aktiver DCGM-systemd-tjenesten (ved omstart) og start nå:
sudo systemctl --now enable nvidia-dcgm
Hvis du vil kontrollere installasjonen, bruker du dcgmi til å spørre systemet. Du bør se en liste over alle støttede GPUer (og eventuelle NVSwitches) som finnes i systemet: (bryteren er en liten bokstav L)
dcgmi discovery -l
dcgmi discovery -l
[Eksemplet nedenfor har ikke NvSwitches, men feltet fylles ut med detaljer hvis de finnes eller oppdages.]