Prerequisiti
Per eseguire DCGM, il sistema di destinazione deve includere i seguenti componenti NVIDIA, elencati in ordine di dipendenza:
- Driver
NVIDIA Datacenter supportati: sui sistemi HGX (Hyperscale Graphics Extension), sui pacchetti
Fabric Manager e NSCQ (NVSwitch Configuration and Query)- Runtime DCGM e SDK
Per le versioni Red Hat o Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Aggiornare i metadati del repository.
sudo dnf clean expire-cache
A questo punto, installare DCGM.
sudo dnf install -y datacenter-gpu-manager
Sui sistemi HGX (A100/A800 e H100/H800), è necessario installare la configurazione dello switch NVIDIA se si desidera eseguire il polling degli NVSwitch. Eseguire una query sulla libreria NSCQ per DCGM per enumerare gli NVSwitch e fornire la telemetria per gli switch. NSCQ deve corrispondere al ramo della versione del driver (XXX) installato sul sistema. Sostituire XXX con il ramo driver necessario nei comandi riportati di seguito.
sudo dnf module install nvidia-driver:XXX/fm
Eseguire una query sul sistema operativo per la versione del driver:
nvidia-smi
Per questo esempio, utilizziamo il seguente comando poiché la versione del nostro driver è 550:
sudo dnf module install nvidia-driver:550/fm
Abilitare il servizio systemd DCGM (al riavvio) e avviare ora:
sudo systemctl --now enable nvidia-dcgm
Per verificare l'installazione, utilizzare dcgmi per interrogare il sistema. Viene visualizzato un elenco di tutte le GPU supportate (e di eventuali NVSwitch) presenti nel sistema: (l'interruttore è una L minuscola)
DCGMI Discovery -l
dcgmi discovery -l
[L'esempio riportato di seguito non include NvSwitch, ma il campo viene popolato con i dettagli se sono presenti o rilevati.]