Förutsättningar
För att köra DCGM måste målsystemet innehålla följande NVIDIA-komponenter, listade i beroendeordning:
– Drivrutiner
för NVIDIA Datacenter som stöds – På HGX-system (Hyperscale Graphics Extension), Fabric Manager- och NVSwitch Configuration and Query-paket
(NSCQ) – DCGM Runtime och SDK
För Red Hat- eller Rocky-versioner:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Uppdatera databasens metadata.
sudo dnf clean expire-cache
Installera DCGM.
sudo dnf install -y datacenter-gpu-manager
På HGX-system (A100/A800 och H100/H800) måste du installera NVIDIA Switch-konfigurationen om du vill avsöka NVSwitches. Fråga NSCQ-biblioteket efter DCGM för att räkna upp NVSwitches och tillhandahålla telemetri för växlar. NSCQ måste matcha drivrutinsversionsgrenen (XXX) som är installerad i systemet. Ersätt XXX med den drivrutinsgren som behövs i kommandona nedan.
sudo dnf module install nvidia-driver:XXX/fm
Fråga operativsystemet om drivrutinsversionen:
nvidia-smi
I det här exemplet använder vi följande kommando eftersom drivrutinsversionen är 550:
sudo dnf module install nvidia-driver:550/fm
Aktivera DCGM-systemtjänsten (vid omstart) och börja nu:
sudo systemctl --now enable nvidia-dcgm
Verifiera installationen genom att använda dcgmi för att skicka en fråga till systemet. Du bör se en lista över alla GPU:er som stöds (och alla NVSwitches) som finns i systemet: (omkopplaren är ett gement L)
DCGMI Discovery -l
dcgmi discovery -l
[Exemplet nedan har inte NvSwitchar, men fältet fylls i med information om de finns eller identifieras.]